Научная статья на тему 'KORPUS LINGVISTIKASI VA PARALLEL KORPUSLAR TAVSIFI'

KORPUS LINGVISTIKASI VA PARALLEL KORPUSLAR TAVSIFI Текст научной статьи по специальности «Языкознание и литературоведение»

3054
364
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
Korpus / korpus lingvistikasi / parallel korpus / tarjima korpus / taqqoslanadigan korpus / segmentlash / mashina tarjimasi / tokenizatsiya / lemmatizatsiya / stemmizatsiya

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Nazira Ganijon Qizi Sobirova

Ushbu maqolada korpus lingvistikasi, korpus va uning parallel korpus bog`ini haqidagi fikrlar, uning tuzilishi, korpus turlari, token,lemma,stemming haqida so`z boradi. Bugungi kunda korpusning nazariy hamda amaliy ahamiyati o„zbek tilshunosligida tilning mavjud imkoniyatlarini kengroq o„rganishda, tilshunoslikdagi muammoli tomonlarini aniqlash, elektron lug„atlar yaratishda, tilni o„rganishda zamonaviy axborot texnologiyalaridan foydalanish samaradorligini oshirishda, tilda avtomatik tarjima, qidiruv va kompyuter tahlili kabi masalalarni hal qilishda, tilning maxsus sohalar bo„yicha korpusini qurish zarurati mavjudligini ko`rsatadi.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «KORPUS LINGVISTIKASI VA PARALLEL KORPUSLAR TAVSIFI»

KORPUS LINGVISTIKASI VA PARALLEL KORPUSLAR TAVSIFI

Ushbu maqolada korpus lingvistikasi, korpus va uning parallel korpus bog'ini haqidagi fikrlar, uning tuzilishi, korpus turlari, token,lemma,stemming haqida so'z boradi. Bugungi kunda korpusning nazariy hamda amaliy ahamiyati o'zbek tilshunosligida tilning mavjud imkoniyatlarini kengroq o'rganishda, tilshunoslikdagi muammoli tomonlarini aniqlash, elektron lug'atlar yaratishda, tilni o'rganishda zamonaviy axborot texnologiyalaridan foydalanish samaradorligini oshirishda, tilda avtomatik tarjima, qidiruv va kompyuter tahlili kabi masalalarni hal qilishda, tilning maxsus sohalar bo'yicha korpusini qurish zarurati mavjudligini ko'rsatadi.

Kalit so'zlar: Korpus, korpus lingvistikasi, parallel korpus, tarjima korpus, taqqoslanadigan korpus, segmentlash, mashina tarjimasi, tokenizatsiya, lemmatizatsiya, stemmizatsiya

This article deals with corpus linguistics, ideas about the corpus and its parallel corpus link, its structure, corpus types, tokens, lemmas, stemming. Today, the theoretical and practical significance of the corps is in the study of the existing possibilities of language in Uzbek linguistics, the identification of problematic aspects of linguistics, the creation of electronic dictionaries, increasing the effectiveness of modern information technology in language learning, automatic translation, search and computer analysis. In solving problems, there is a need to build a corpus of language in specific areas

Keywords: Corpus, corpus linguistics, parallel corpus, translation corpus, comparable corpus, segmentation, machine translation, tokenization, lemmatization, stemization

XXI asrning global muammolaridan biri tabiiy tillarning milliy xususiyatini saqlab qolishdan iborat. Dunyo tillarining elektron korpuslarini yaratish va rivojlantirishda NLP hamda til texnologiyalariga

Nazira G'anijon qizi Sobirova

NamMQI 2-kurs magistranti

ANNOTATSIYA

ABSTRACT

KIRISH

doir tadqiqotlarni izchil ravishda olib borish dolzarb vazifaga

May, 2022

aylandi1. Сhet el korpus tilshunosligi sohasida olib borilgan ilmiy, amaliy izlanishlar korpusning nafaqat so'z bilan ish ko'radigan soha vakillari uchun, balki millat ravnaqi uchun ham kerakli hamda zarur nuqta ekanini isbot etgan.

Davlatimizda ham bugungi kunda amaliy tilshunosligimiz oldida turgan eng muhim masalalardan biri etib - o'zbek tilining milliy korpusini yaratish siyosat darajasiga ko'tarildi. Xususan, o'zbek tilini jamiyat hayotida hamda xalqaro miqyosda obro'-e'tiborini oshirish maqsadida, o'zbek tiliga oid barcha ilmiy, nazariy va amaliy ma'lumotlarni o'zida jamlagan elektron ko'rinishdagi o'zbek tili milliy korpusini yaratish, o'zbek tilini Internet jahon axborot tarmog'ida ommalashtirish, unda munosib o'rin egallashini ta'minlash, dasturiy mahsulotlarning o'zbekcha ilovalarini yaratish, o'zbek tilini o'rgatuvchi kompyuter dasturlarini keng miqyosda amaliyotga tatbiq qilish, o'zbek tilidagi matnlar tahririga mo'ljallangan kompyuter dasturlarini yaratish ishlari tilshunoslik oldida turgan muhim vazifalar etib belgilab olindi. Amalda bu bo'yicha ko'plab izlanishlar olib borilmoqda. Rus va ingliz tillari bo'yicha korpus lingvistikasi turli sohalar kesimida V.Zaxarov, A.Sedov, A.Baranov, R.Potapova, V.Rikov, U.Frensis, N.Leontyeva, V.Martin, S.Kubler, A.Laurens, E.Etwell, S.Hunston, L.Boizou, McKenneri, J.Grafmiller, J.Grieva, N.Grum, S.Hansson, K.MMcAulif, M.Malberg, P.Milin,

A.Murakami, R.Peych, A.Shembri, P.Tompson, B.Vinter, G.Linch kabi xorijiy

"3

olimlar tomonidan hamda Turkologiyada korpusshunoslik (korpus lingvistikasi) sohasi bo'yicha ilmiy tadqiqotlar olib borilgan. Turk tili bo'yicha Aksan, Deniz, Zeyrek, Kemal Oflazer, Umut O'zge Bular; uyg'ur tili bo'yicha Yusup Aibaidulla, Kim-Teng Lua; boshqird tili bo'yicha I.A.Buskunbaeva, Z.Sirazitdinov; hakaz tili bo'yicha Sheymovich, tatar tili bo'yicha J.Suleymanov, A.Gatiatullin, O.Nevzorova, R.Gilmullin, B.Hakimov; qrimtatar tili bo'yicha L.Kubedinova hamda tuva tili bo'yicha Salchak kabi olimlarning ishlari diqqatga sazovor4. O'zbek olimlaridan

B.Mengliyev, Sh.Shahobiddinova, Z.Xolmanova, S.Karimov, N.Abduraxmonova, L.Raupova, Sh.Hamroyeva, M.Abjalova, G.Toirova, G.Ikromova, J.Djumabayeva, G.Ergasheva, A.Eshmo'minovlar ilmiy ishlar qilishgan. O'zbek tili milliy korpusining konseptologiyasi B.Mengliyev rahbarligidagi olimlar jamoasi tomonidan ishlab chiqilmoqda5.

'Abduraxmonova N. O'zbek tili electron korpusining kompyuter modellari (monografiya) /Toshkent: Muharrir, 2021, 202 b.

2O'zbekiston Respublikasi Prezidentining 2019-yil 21-oktabrdagi "O'zbek tilining davlat tili sifatidagi nufuzi va mavqeyini tubdan oshirish chora-tadbirlari to'g'risida"gi PF-5850-son

3 Abdurakhmonova N. Kompyuter lingvistikasi (darslik) / Globe edit publishing, 2020, 395 b.

4 Abduraxmonova N. O'zbek tili elektron korpusining kompyuter modellari (monografiya) /Toshkent: Muharrir, 2021, 202 b.

5 Abduraxmonova N. O'zbek tili elektron korpusining kompyuter modellari (monografiya) /Toshkent: Muharrir, 2021, 202 b.

May, 2022

1443

Tildagi barcha katta-yu kichik jihatlarni korpus o\ida jamlovchi elektron xazinadir. Matnlar korpusini yaratishda turli me'yorlar mavjud. Korpuslar berilganlar bazasining turlariga(ogzaki,yozma), matnlarning tiliga

(,rus,nemis,turk...), matn tarjimalarining parallelligiga( ikki tillik, uch tillik), uslubiga(soлzlashuv, badiiy,rasmiy,ilmiy,publitsistik), bazadan foydalanish imkoniyatiga (ochiq,yopiq), geografik holatiga(faqat bir davlatga mansub yoki va h.k.) qarab tuziladi.

Korpus - kompyuterning ma'lumotlar bazasida saqlanuvchi og'zaki va yozma matnlar majmui . Korpusda yig'ilgan materiallarning aniq yozilgan vaqti, qaysi uslubga mansubligi, qaysi manbaga tegishliligi ham batafsil yoritilgan bo'ladi. Foydalanuvchi o'zining qiziqishlariga qarab xohlasin badiiy, xohlasin ilmiy, xohlasin rasmiy yoki publitsistik uslubdagi matnlarga murojaat qila oladi. Bu til o'rganishda, ayniqsa, judayam katta naf keltiradi. Maktab ta'limida dars jarayonida o'quvchilarga bilimlarini mustahkamlashda topshiriqlarni tezkorlik bilan berishda pedagoglarga anchayin qo'l keladi. Korpus qamrovi juda keng, salmoqdorlik darajasi yuqori bo'lgan tizimlashtirilgan kutubxonadir. Foydalanishga qulay, vaqtni ancha tejaydi. Elektron qidiruv tizimi jihatidan boshqa dasturlardan farq qiladi. Korpus bo'yicha qidiruv foydalanuvchiga belgilangan so'zning turli kontekstdagi barcha shakldagi ko'rinishini topib beradi. Lug'atda qaysi o'rinda ekanligini, uning variantlarini aniq ko'rsatadi. Qidirilayotgan so'zning birikish imkoniyatiga ega bo'lgan so'zlar qatorini, denotativ hamda konnotativ manolarini belgilay oladi. So'zdan foydalanish chastotasi yoki statistikasini adibning yozgan asarida tasvirlaydi. Aynan shu so'zdan qaysi davrda qanday qo'llanganlik holatini o'zida aks ettirib bera oladigan zamonaviy taraqqiyot belgisidir.

O'zbek tilining elektron korpusi Mahalla va oila ilmiy-tadqiqot institutining JHBL-20-sonli "Oila, mahalla va gender

May, 2022

1444

tengligi mavzusida badiiy asarlarning elektron korpusini yaratish" loyihasi doirasida amalga oshirildi6. Ushbu elektron korpus dunyo tajribasidan unumli foydalanilgan holda yaratildi.

Parallel korpus lingvistik manbalarning yangi turi sifatida

Elektron korpusning parallel korpus avtonom qismi juda ko'plab kerakli axborotlarni o'zida jamlay olish xususiyati bilan ahamiyatga molikdir. Mashina tarjimasi yo'nalishida yonma - yon taqqoslash uchun maxsus formatlangan ko'p tilli korpuslar mavjud bo'lib, ular tizimlangan parallel korpus deb ataladi.

Parallel matnlar korpusining dastlabki namunasi sifatida 1799-yilda Rozetta shahri yaqinidagi Nil deltasida topilgan mil.av 196-yilga borib taqaladigan, Misr ibodatxonalari tomonidan ikki tilda (yunon va misr) va uchta yozuv tizimida (Misr iyerogliflari va demotik tilda yozilgan ) shoh Ptolomey Vga berilgan sharaflar haqida so'z yuritilgan tosh hisoblanadi .

Parallel korpusning tuzilishi, tarkibi va imkoniyati haqidagi ma'lumotlarni D.O.Dobrovolskiy , Yu.Tao, V.Zaxarov , A.A.Kokoreva , E.P.Sosnina larning ishlarida kuzatamiz .

Parallel korpus,ya'ni asl nusxalar to'plami va ularning tarjimalari tarjimashunoslik, mashina tarjimasi, lingvistika, hisoblash tilshunosligi yoki oddiygina inson tarjimoni manfaati uchun turli yo'llar bilan ishlatilishi mumkin. Hisoblash tilshunosligida tarjima korpuslari mashina tarjimasi uchun, shuningdek, atamalarni ajratib olish, so'z ma'nosini aniqlash va hokazolar uchun 1980-yillarning boshida qo'llanilgan.

Birinchi parallel matnlar sifatida Shveytsariyada nemis,fransuz,italyan tillarida to'plangan qor ko'chkisi haqidagi hisobotlar, Kanada ommaviy axborot vositalari ingliz, fransuz tillarida berilgan ob-havo ma'lumotlari 1980-yillarning oxiri 1990-yillarning boshlarida paydo bo'lgan. Dastlabki elektron resurslardan biri Kanada Hansard bo'lib, u dastlab jumlalarni moslashtirishni amalga oshirish uchun ishlatilgan (Gale & Church 1991), bu vazifa hozirda tarjima xotiralari kabi ilovalarning standart xususiyati hisoblanadi. Bundan tashqari, parallel korpuslar ko'p tilli grammatik indüksion, avtomatik leksikografiya va turli tillarda ma'lumot olish va tilni qayta ishlashda boshqa ko'plab vazifalar uchun ma'lumotlar bazasi sifatida ishlatiladi . Ushbu yillarda yaratilgan loyihalarning barchasidan oxirgi maqsad mashina tarjima tizimini yaratish bo'lgan.

Abdurahmonova N. O'zbek tili elektron korpusining kompyuter modellari (avtoreferat). Toshkent: OOO'' AKTIV PRINT'', 2021, 72 b.

d ©

® '

May, 20221

1445

Parallel korpuslar tarjimashunoslik va qarama-qarshi tilshunoslikda markaziy o'rin tutadi. Ko'pgina parallel korpuslarga foydalanish oson konkordanserlar orqali kirish mumkin, bu esa tillararo hodisalarni o'rganishni sezilarli darajada osonlashtiradi. Anarbayev Orzubek Raxmanovich parallel korpusga quyidagicha fikr beradi: ,, ... Parallel korpus madaniyatlararo muloqot keng yoyilgan hozirgi davr uchun muhim voqelik hisoblanadi. Parallel korpuslar orqali turli til muhitidagi, madaniyatlaridagi universaliyalar hamda tillarning o'ziga xos mental xususiyatlari, realiya va lakunar birliklarni aniqlash mumkin bo'ladi. Parallel matnlar korpusi avtomatik tarjima rivoji uchun ham xizmat qiladi, kompyuter leksikografiyasining taraqqiyotini ta'minlaydi. Parallel matnlar korpusi yordamida konkordanser dasturlar ishlab chiqiladi va turli xil ixtisoslik lug'atlari tuzish imkoniyati yuzaga keladi '' Darhaqiqat, korpuslar yaratilishi, eng avvalo, leksikografiya sohasi uchun katta ahamiyatga ega. Zamon aksi tilning lug'atida namoyon bo'ladi. Doimiy ravishda ,,o'sib '' boradi. Tilning qay darajada boyligini yaqqol ko'rsatadigan oynasi - bu uning lug'ati. Lug'at tarkibining ko'pligi uning qadrini oshiradigan omil sanaladi. Bunday korpuslar ham til o'rgatish uchun boy materiallar manbai hisoblanadi. Bundan tashqari, parallel korpuslar statistik mashina tarjimasi tizimlari uchun o'quv ma'lumotlari sifatida xizmat qiladi.

Parallel korpus bu - tarjima qilingan matnlar juftligidir. Tarjimashunoslikda asosiy e'tibor tarjimalarni asl matnlardan ajratib turadigan xususiyatlarni aniqlashga qaratilgan. Ushbu o'zgartirishlar ma'lum bir tarjima vazifasi yoki tarjima juftligi uchun individual bo'lishi mumkin, lekin ular tarjima matnining keng ko'lamli lingvistik xususiyatlariga ko'ra tarjimalarni tarjima qilinmagan matnlardan farq qiladigan odatiy xususiyatlarni aniqlashtirishi mumkin. Bu izlanishlar korpus tarjimalarning o'ziga xos xususiyatlarini empirik tarzda aniqlashning aniq usuli bo'lib, 1990-yillardan beri Beyker (1993; 1996), Johansson & Ebeling (1996) va yaqinda Hansen (2003) tomonidan; Teich (2003 yil); Mauranen & Kujamäki (2004) va Hansen-Schirra, Neumann & Steiner (2012) tomonidan qo'llanilgan. Bundan tashqari, parallel korpuslar tarjimani o'qitish va professional tarjima sozlamalarida ma'lumotnoma sifatida ishlatiladi, chunki ular tarjima yechimlariga (masalan, tarjima xotiralari) tez va interaktiv kirish imkonini beradi .

Liverpul universitetida 2009-yilgi Korpus tilshunosligi konferensiyasi bo'lib o'tadi, unda parallel korpuslar bilan ishlaydigan tilshunoslar va tarjimashunoslik talablari, korpusdan o'z maqsadlari uchun foydalanish asboblari hamda korpus interfeysi bilan bog'liq masalalar muhokama

qilinadi. Ushbu konferensiya Lankaster universitetida 2003-

May, 2022

yilda Korpus tilshunosligi konferensiyasida o'tkazilgan "Multilingual Corpora: lingvistik talablar va texnik istiqbollar" seminari bilan chambarchas bog'liq va uning davomi edi . Muhokamada Volk, sintaktik darajada annotatsiya, moslashtirish va so'rovlarga e'tibor qaratish kerakligini ta'kidlaydi. Fantinuoli esa konferensiya tarjimonlariga ishining barcha bosqichlarida yordam beradigan InterpretBank dasturiy ta'minotining dizaynini tasvirlaydi. U Boot Cat mexanizmiga asoslanib, qidiruv so'zlari to'plamini berilgan domenga xos hujjatlar uchun Internetdan yig'adi, ular bo'yicha atamalarni ajratib oladi va qo'shimcha resurslardan foydalanadi. Vikipediya, ikki tilli onlayn lug'atlar, ta'riflar, tarjimalar, birikmalar va kontekstdagi kalit so'zlar haqida ma'lumot chaqiradi. Barcha modullar tarjimonlarning o'ziga xos ehtiyojlariga moslashtirilgan bo'lib, tayyorlash uchun zarur bo'lgan vaqtni qisqartiradi va tarjimon paytida samarali qidirish imkonini beradi. OPUS korpusi tayyorgarlik bosqichida ekanini aytadi.

Parallel korpusda tarjima o'zgarishlarini aniqlash tarjimashunoslik nuqtai nazaridan asosiy vazifadir. Tarjimashunoslikda ham, qarama-qarshi tilshunoslikda ham ko'p tilli korpuslar yaqinda tarjima hodisalarini, ya'ni tarjima o'zgarishlarini yoki tarjima xususiyatlarini o'rganish uchun, shuningdek, o'rtasidagi kontrastiv farqlarni o'rganish uchun foydalanilgan. Shunday korpuslardan biri ingliz-german CroCo korpusidir. Korpus tarkibiga ingliz va nemis asl nusxalari va ularning nemis va ingliz tillariga tarjimalari kiradi. Shunday qilib, u ham taqqoslanadigan, ham parallel korpus sifatida ishlatilishi mumkin. Har bir tarjima yo'nalishlari har bir bo'limda jami 31250 so'zdan iborat bo'lgan kamida 10 ta matndan iborat 8 ta janrda aks ettirilgan. CroCo Corpus taxminan bir million so'zni o'z ichiga oladi. Bundan tashqari, ro'yxatdan o'tmagan neytral ma'lumot korpusi 17 ta janrdan 2000 ta so'z namunalarini o'z ichiga olgan nemis va ingliz tillari uchun kiritilgan. Shunday qilib, korpus o'xshash va parallel qismdan iborat. Janrlar jihatidan siyosiy insholar, badiiy matnlar (badiiy adabiyot), o'quv qo'llanmalari, ilmiy-ommabop matnlar, korporativ muloqot, tayyorlangan nutqlar, turizm varaqalari va veb-saytlar (WEB)ni o'z ichiga oladi. Unda tobora murakkab so'rovlarni, shu jumladan bir nechta izoh va moslashtirish qatlamlarida ishlaydigan so'rovlarni boshqarish va Java-ga asoslangan annotatsiya vositalarini korpusga qo'llash uchun o'z amaliy dasturlash interfeysi (API) yaratilgan. Ular ingliz-nemis tillari juftligida tarjima xususiyatlarini o'rganish uchun dolzarbligi sababli tanlangan.

Jahon tilshunoslik manzarasi o^zbek tilshunosligida ham parallel korpuslar yaratilishi asosiy masala ekanligiga turtki bo'ldi. Matnlarni avtomatik tarzda me'yorlashtirish jarayoni

May, 2022'

1447

morfologik tahlil qilish bilan bog'liq, bunda tokenizatsiya,lemmatizatsiya, stemmizatsiya usullaridan foydalaniladi.

Tokenlash - tabiiy tildagi nutq birliklari alohida tarzda grammatik ma'nolarga ajratib beriladi, so'zshakllari aniqlanadi.

Lemmalash -so'zshakllarning dastlabki qismi,ya'ni lug'atdagi ko'rinishi aniqlanadi. So'zlar asos va qo'shimchalarga ajratilib, morfema ko'rinishiga keltiriladi.

Stemming - so'zning o'zak qismi aniqlanadi.

Tokenizatsiya Lemmatizatsiya Stemmizatsiya

Women's women/'s Woman

ayollarning ayol-lar-ning Ayol

Parallel matnlardan foydalanish uchun eng birinchi bo'lib, matn segmentlarini (iboralar, yoki jumlalarni) identifikatsiyalash va matn turlari va janrlarini o'zaro moslashtirish, muvofiqlashtirishimiz kerak. Buni bosqichma-bosqich amalga oshirish tartibimiz quyidagicha:

l.Parallel korpuslarning lingvistik ta'minoti uchun ingliz-o'zbek, o'zbek-ingliz parallel matnlar majmuini yig'ish va saralash;

Matnlarni tahlil qiluvchi avtomatik analizatorni yaratishda ,avvalo, elektron morfologik lug'at yaratiladi. Morfologik tahlil natijasida so'z turkumlariga oid statistik natija olinadi. Shu tarzda

May, 2022'

1448

leksemalarning katta mantiqiy bazasi yuzaga keltirildi. Morfologik tahlil sintaktik tahlil uchun ham muhimdir. Tillarning leksik birliklarining semantikasini aniq ochib berishdaparallel korpus ko^prik vazifasini o^taydi.

INGLIZCHA MATN (ASLI)I

NEMISCHA MATN (ASLI)

TURKCHA MATN (ASLI)

O'ZBEKCHA

TARJIMASI

O'ZBEKCHA

TARJIMASI

PARALLEL KORPUS TAQQOSLANADIGAN (qiyosiy) KORPUS Korpusda kalit so^zlar mavjud bo'lib, ular parallel korpus uchun ahamiyatlidir. Kalit so'zlar ko'p marta qo'llangan, asosiy mano ifodalaydi. Ularni matnni qismga ajratish, ajratilgan birliklar ichidan mustaqil mano anglatmaydigan birliklarni alohida to'plamga kiritish va ularni kalit so'z sifatida tasniflanadigan birliklar jadvalidan o'chirish orqali shakllantiriladi. Parallel korpuslarda matndagi kalit so'zlarni ajratib olishimiz ishimizga yengillik beradi.

XULOSA

Bugungi kunda korpus vaqt va mehnatni tejaydigan ish quroliga aylanib ulgurdi. Korpusga asoslangan til talimi ,tobelanish nazariyasiga asoslangan parsing ,korpus morfologik analizda FST texnologiyasi mualliflik korpusi milliy korpus yaratishning dasturiy va lingvistik talimoti , korpusning morfologik va semantik analizatori, mashina tarjimasining parallel korpuslar asosida neyro texnologiyalarni

n

yaratish, o'zbek tilining talimiy korpusini..... shakllantirishga doir nazariy va

amaliy tadqiqotlar olib borilmoqda. Parallel korpuslar nafaqat tilshunoslikda, balki tarjimashunoslik, ikki tilli lug'atshunoslikda, tillarni qiyoslash zarur bo'lgan sohalarda qo'l keladi. Elektron korpusning afzalliklaridan biri - tilda so'zning o'zgarishi, istorizm, neologizm, ma'no kengayishi va torayishi, yangi frazeologizmlarning paydo bo'lishini kuzatish mumkin. Davrlararo tilning boyib borish jarayonini ko'rsatib turuvchi elektron manba bo'lgan til korpuslariga doimiy ravishda yangiliklarning kiritilishi, joylanib turishi inson mehnatini yengillatadi. Kitob shaklidagi lug'atlarga yil o'tgani sari tilda vujudga keladigan o'zgarishlarni kiritish ancha kuch va mablag' sarf etishni talab qiladi. Korpus esa bu muammoni qisqa muddatda, hech qanday xarajatsiz bajarilish imkoniyatini beradi.

uzbekkorpus

May, 2022

1449

Parallel korpuslardan kutilayotgan natija - matnni to'liq avtomatizatsiya qilish, bu orqali nafaqat tarjimonlikda,balki mashina tarjimasi uchun ham qoTlashdir. Hozirda qilinayotgan ishlarda bevosita inson faoliyati natijasida statistik yoT bilan amalga oshiriluvchi mashina tarjimasi texnologiyasi kelgusida yaratish harakatidamiz. Tarjima xotirasini yaratish orqali google kabi statistik tarjima texnologiyasi uchun lingvistik bazasifatida mashina tarjimasining neyro texnologiyasi ishlab chiqilishiga yordam beradi. Parallel korpuslarning yana bir zarur tomoni - tarjimadagi g'alizliklarga chek qo'yishidir. Internet orqali qilingan tarjimada ko'plab xatoliklar, so'zlarning umuman matn tarjimasiga aloqasi boTmagan so'z sifatida o'girib berishi haligacha muammo. Parallel korpus yaratishdan asosiy ko'zlanayotgan maqsadimiz ham samarali, to'g'ri tarjima usullarini ishlab chiqishdir. Parallel korpus orqali tarjima sifati yaxshilanishiga erishiladi.

REFERENCES

1. Abdurakhmonova N, Tuliyev U. Morphological analysis by finite state transducer for Uzbek-English machine translation/Foreign Philology: Language. Literature, Education. 2018(3):68.

2. Abdurakhmonova N, Urdishev K. Corpus based teaching Uzbek as a foreign language. Journal of Foreign Language Teaching and Applied Linguistics (J-FLTAL). 2019;6(1-2019): 131-7.

3. Abduraxmonova, N. Z. "Linguistic support of the program for translating English texts into Uzbek (on the example of simple sentences): Doctor of Philosophy (PhD) il dis. aftoref." (2018). Abdurakhmonova N. The bases of automatic morphological analysis for machine translation. Izvestiya Kyrgyzskogo gosudarstvennogo tekhnicheskogo universiteta. 2016;2 (38):12-7.

May, 2022

i Надоели баннеры? Вы всегда можете отключить рекламу.