MASHINA TARJIMASI TURLARI VA ULARNING QIYOSIY TAHLILI
PhD Dauletov A.Yu
ALFRAGANUS UNIVERSITY
doktarant Matyakubova N.Sh
Alisher Navoiy nomidagi Toshkent davlat
o'zbek ti'li va adabiyoti universiteti
Annatotsiya. Globallashish jarayonining jadallashuvi insonlar orasida til, zamon va makon tushunchalarini anchagina o'zgartirdi va insonlarning o'zaro muloqoti va ma'lumot almashishi uchun imkoniyatlar sarhadi kengaydi. Ammo ayrim insonlarda hali hanuz tillarni tushinishda va ma'lumotlarni o'zlashti'rishda ayrim to'siqlar mavjud bo'lib, bu to'siqlarini bartaraf eti'sh uchun eng katta ko'makchi bo'lgan texnik vosita bu mashina tarjimasi vositasi bo'lib u tabiiy tilni qayta ishlashning ko'plab sohalari orasida samarali nati'jalar ko'rsatgan elektron vosita hisoblanadi. Texnika taraqqiyoti jarayonida mashina tarjimasi ham o'zining jadal taraqqiyot davrini o'tkazdi va hali hanuz uning samaradorligini oshirish va takomillashti'rish uchun ko'plab izlanishlar olib borilmoqda. Mashina tarjimasi turlari texnologiya, ma'lumotlar, model arxitekturalari, til juftliklari, moslashti'rish imkoniyatlari, mavjud resurslar, foydalanish holatlari va maqsadlari, sifat tezligi, tadqiqot tendentsiyalari va foydalanuvchilarning fikr-mulohazalaridagi o'zgarishlardan kelib chiqqan holda farqlanadi va ushbu maqolada biz qoidaga asoslangan mashina tarjimasi, misollarga asoslangan mashina tarjimasi, statistik mashina tarjimasi va neyron mashina tarjimasi va ularning sifatini yaxshilash uchun qollaniladigan moslashti'rish mexanizimi, ularning taraqqiyot bosqichlari va bugungi kunda eng ko'p qo'llanilayotgan mashina tarjimonlarining turlarini ko'rib chiqamiz. Mashina tarjimasiga bo'lgan ehti'yoj dunyoning globallashuvi va insonlar orasida o'zaro bog'liqligining kuchayishi natijasida paydo bo'ldi. Turli tillarga mansub odamlar savdo, diplomati'ya, fan va texnologiya kabi turli sohalarda tez-tez muloqot qilganligi sababli, til to'siqlarini bartaraf eti'shning samarali usullariga talab orti'b bordi. Ushbu ehti'yojlar natijasida tadqiqotchilar tarjimalarni mashinalar orqali avtomatlashtirish g'oyasini o'rgana boshladilar. Bu 1950-yillarda qoidaga asoslangan yondashuvlar va 1990-yillarda statistik metodlardan foydalanib tarjima qiluvchi dastlabki mashinali tarjima tizimlarining rivojlanishiga olib keldi va bu bugungi kunda bizda mavjud bo'lgan zamonaviy mashina tarjimasi texnologiyalariga asos soldi. Dastur matnni tahlil qiladi va tarjima qilinadigan ti'ldagi matn yarati'ladigan o'ti'sh davri tasvirini yaratadi. Bu jarayon morfologik, sintaktik va semantik ma'lumotlarga ega bo'lgan keng leksikalarni va katta qoidalar to'plamini talab qiladi. Dasturiy ta'minot ushbu murakkab qoidalar to'plamidan foydalanadi va keyin manba ti'lning grammatik tuzilishini maqsadli ti'lga o'tkazadi. Tarjima qilish jarayoni ulkan lug'atlar va murakkab til qoidalariga asoslanadi.
Kalit so'zlar: mashina tarjimasi, qoidaga asoslangan mashina tarjimasi, statistik mashina tarjimasi, neuron mashina tarjimasi, statistik modellar, tabiiy tilni qayta ishlash.
Abstract. The acceleration of the globalization process has greatly changed the concepts of language, time and space among people, and the sum of opportunities for human interaction and Information Exchange has expanded. But in some people there are still some obstacles in the descent of still languages and the assimilation of information, and the technical tool that is the greatest assistant to overcome these barriers is the machine translation tool, which is an electronic tool that has shown effective results among many areas of natural language processing. In the process of technical development, machine translation has also passed its period of rapid development, and still a lot of research is being carried out to improve and improve its efficiency. Types of machine translation differ from changes in technology, data, model architectures, language pairs, customization options, available resources, use cases and goals, quality speed, research trends, and user feedback, and in this article we will focus on rule-based machine translation, example-based machine translation, statistical machine translation, and neural machine translation, and leveraged adaptation mechanics to improve their quality., let's look at the stages of their development and the types of machine translators that are most used today. The need for machine translation arose as a result of the globalization of the world and increased interdependence among humans. Since people of different languages often
communicate in different areas such as trade, diplomacy, science and technology, there has been a growing demand for effective ways to overcome language barriers. As a result of these needs, researchers began to study the idea of automating translations through machines. This led to the development of rule-based approaches in the 1950s and early machine translation systems using statistical techniques in the 1990s, laying the foundation for the modern machine translation technologies we have today. The program analyzes the text and creates a transitional image in which the text in the language to be translated is created. This process requires extensive lexicons and a large set of rules with morphological, syntactic and semantic information. The software uses this complex set of rules and then transfers the grammatical structure of the source language to the target language. The translation process is based on huge dictionaries and complex language rules.
Keywords: machine translation, rule-based machine translation, statistical machine translation, neural machine translation, statistical models, natural language processing.
Kirish. Bir ti'ldan boshqa tilga matnlarni avtomati'k tarjima qilish usuli mashina tarijmasi deb yuritilib ilmiy texnika taraqqiyotining eng katta yutuqlaridan biri hisoblanadi. Mashina tarjimasiga bo'lgan ehtiyoj dunyoning globallashuvi va insonlar orasida o'zaro bog'liqligining kuchayishi nati'jasida paydo bo'ldi. Turli tillarga mansub odamlar savdo, diplomati'ya, fan va texnologiya kabi turli sohalarda tez-tez muloqot qilganligi sababli, til to'siqlarini bartaraf eti'shning samarali usullariga talab ortib bordi. Ushbu ehtiyojlar nati'jasida tadqiqotchilar tarjimalarni mashinalar orqali avtomatlashtirish g'oyasini o'rgana boshladilar. Bu 1950-yillarda qoidaga asoslangan yondashuvlar va 1990-yillarda stati'sti'k metodlardan foydalanib tarjima qiluvchi dastlabki mashinali tarjima tizimlarining rivojlanishiga olib keldi va bu bugungi kunda bizda mavjud bo'lgan zamonaviy mashina tarjimasi texnologiyalariga asos soldi.
Bugungi kunda eng ko'p qo'llaniladigan mashina tarjimasi(MT) vositalariga Google Translate, Yandex Translate, DeepL, Amazon Translate kabilar bo'lib ular turli usullardan foydalanib matnlarni tarjima qilish imkoni bilan bir qatorda keng ko'lamda tillar tanlash imkonini beradi. Ammo MT tarixiga nazar soladigan bo'lsak tarjima qilingan gapning kontekstual ma'nosini tabiiy tildagidek chiqarish bir muncha murakkab bo'lgan va asosan qoidalarga asoslanib va mavjud bo'lgan stati'sti'k ma'lumotlardan foydalangan holda berilgan matnlar tarjima qilinigan. Machine Learning hamda Deep Learning mexanizmlarining takomillashuvi zamonaviy tarjima ti'zimlariga ham katta tasir ko'rsatdi. Sun'iy intellekt algoritmlari va neyron tarmoqlari tufayli mashina tarjimasi deyarli insoniy aniqlik darajasiga yetdi.
Adabiyotlar sharhi
Mashina tarjimasi boy tarixga ega bo'lib, yillar davomida uning rivojlanishiga bir qancha olim va tadqiqotchilar hissa qo'shgan. Warren Weaver amerikalik olim va matematik 1949-yilda nashr eti'lgan mashhur memorandumda "mashina tarjimasi" atamasini qo'llagan ilk olim deb hisoblanadi[1]. "Tarjima" deb nomlangan ushbu memorandumda kompyuterlar yordamida tarjima jarayonini avtomatlashti'rishning qiyinchiliklari va imkoniyatlari ko'rsatilgan. Amerikalik kompyuter olimi va elektrotexnika muhandisi Piter Zade va Paul Garvin 1954-yilda Georgetown-IBM eksperimentini [2] o'tkazdi va ushbu tajriba IBM 701 kompyuteridan foydalangan holda mashina tarjimasi bo'yicha eng dastlabki urinishlardan biri edi. 1950-yillarning oxiri va 1960-yillarning boshlarida IBM tadqiqotchilari guruhi, jumladan Leon Dostert [1], Uilyam N.Lokk va boshqalar turli xil mashina tarjimasi loyihalari ustida ishladilar va dastlabki ti'zimlar va metodologiyalarning rivojlanishiga hissa qo'shdilar.
Piter Toma va J. L. Delkroix tomonidan 1968 yillarning boshlarida ishlab chiqilgan SYSTRAN [3] ti'zimi ilk samarali mashina tarjima ti'zimlaridan biri edi. Sovuq urush davrida ingliz va rus ti'llari o'rtasida tarjimalarni taqdim etish uchun keng qo'llanilgan. 1990-yillarning o'rtalarida IBM tadqiqotchilari 1-dan 5-gacha bo'lgan IBM Modellari deb nomlanuvchi bir qator stati'sti'k mashina tarjimasi modellarini taqdim etdilar[4]. Bu modellar, ayniqsa Model 4 va Model 5, katta ahamyatga ega bo'ldi va statistik MTning keyingi rivojlanishi uchun zamin yaratdi.
Google Translate rasmiy ravishda 2006-yil 28-aprelda ishga tushirilgan[5]. U asosan Neyron Mashina Tarjimasi(NMT)dan foydalanishga o'tgan bo'lsa-da, u ilgari Stati'sti'k Mashina Tarjimasi(SMT)dan foydalangan. Google Translate dastlab stati'sti'k modellarga tayangan bo'lsada tarjima sifatini yaxshilash uchun NMT ga o'tdi. Google Neural Machine Translation (GNMT) — 2016-yilda Google tomonidan ishlab chiqilgan ilg'or mashina tarjimasi ti'zimi bo'lib, tarjima sifati' va ravonligini yaxshilash uchun neyron tarmoqlar va Deep Learning usullaridan foydalanadi.
19.W
19S0
1990
2015
To 'g 'tiÄzn-to 'g Vi MT
Wäjiifer MT
Interlingual ,1/F
Miscllnrga. asoslimgan MT
MT
Siiitniitisga n?oslaitgaii
Tükroriy weyfon lai-moqhinga asoilangai[ .Yfr
So 'z bi/ikmalariga asoslangan
• 1966-ALPACStEPORT
• Sm^ISTRAN
• mQ-IEM Models
• 200'-Googl<! rfuniEuFi
• 2016- GSMT
1-rasm Mashina Tarjimasining qisqacha taraqqiyot bosqichi
Metodologiya
Mashina tarjimasi turlari texnologiya, ma'lumotlar, model arxitekturalari, til juftliklari, moslashti'rish imkoniyatlari, mavjud resurslar, foydalanish holatlari va maqsadlari, sifat tezligi, tadqiqot tendentsiyalari va foydalanuvchilarning fikr-mulohazalaridagi o'zgarishlardan kelib chiqqan holda farqlanadi. Ushbu farqlar foydalanuvchilarga o'ziga xos ehtiyojlari va imkoniyatlariga mos mashina tarjimasi yondashuvini tanlash imkonini beradi. Mashina yordamida tarjima qilish tizimlarining to'rt turi mavjud bo'lib:
• Qoidalarga asoslangan mashina tarjimasi (RBMT)
• Misollarga asoslangan mashina tarjimasi(EBMT)
• Statistik mashina tarjimasi (SMT)
• Neyron mashina tarjimasi (NMT)
Ushbu maqolada biz yuqorida kelti'rilgan Mashina tarjimalarini va ularning ishlash bosqichlarini batafsil ko'rib chiqamiz.
Qoidalarga asoslangan mashina tarjimasi
Qoidalarga asoslangan mashina tarjimasi (RBMT) son-sanoqsiz o'rnatilgan lingvisti'k qoidalarga va har bir til juftligi uchun millionlab ikki ti'lli lug'atlarga tayanadi. Dastur matnni tahlil qiladi va tarjima qilinadigan tildagi matn yarati'ladigan o'ti'sh davri tasvirini yaratadi. Bu jarayon morfologik, sintakti'k va semantik ma'lumotlarga ega bo'lgan keng leksikalarni va katta qoidalar to'plamini talab qiladi. Dasturiy ta'minot ushbu murakkab qoidalar to'plamidan foydalanadi va keyin manba ti'lning grammatik tuzilishini maqsadli ti'lga o'tkazadi. Tarjima qilish jarayoni ulkan lug'atlar va murakkab til qoidalariga asoslanadi.
Foydalanuvchilar tarjima jarayoniga o'z atamalarini qo'shish orqali tarjima sifati'ni yaxshilashlari mumkin. Ular ti'zimning standart sozlamalarini bekor qiladigan foydalanuvchi tomonidan belgilangan lug'atlarni yaratadilar. _
2-Rasm Qoidalarga asoslangan mashina tarjimasi ishlashi uchun talab qilinadigan asosiy vositalar.
Qoidalarga asoslangan mashina tarjimasida qoidalar asosan asliyat va tarjima ti'llarining grammatik tuzilishini tavsiflaydi va atamalarni tarjima qilish uchun lug'atdan foydalanadi. Analizator grammatik
kirish strukturasini tahlil qiladi va kiritilgan matnning oraliq tasvirini yaratadi. Analizator ushbu tasvirni tarjima ti'lining grammatik tuzilishiga o'tkazadi.
1- Jadval. Qoidalarga asoslangan mashina tarjimasi ishlash bosqichlari
Bosqichlar ketma ketligi Bosqich nomlari Vazifalari
1- bosqich Morfologik taxlil Jumladagi so'zlarni morfologik taxlil qiladi, kontekst darajasida Grammatik noaniqlik orqali so'zlarning ma'nosini aniqlaydi.
2- bosqich Sintaktik taxlil Gap bo'laklar va ularning gapdagi o'rnini taxlil qiladi, POS tagging, gap turlari va ularning orasidagi bog'liqlikni o'rganadi
3- bosqich Gap/Jumla sintezi Tarjima qilinayotgan ti'lning Grammatik qoidalariga asoslangan holda tarjima qilingan jumlani shakllanti'radi.
Qoidalarga asos angan mashina tarjimasi tarjima jarayonida asosan uchta strategiyalarga
asoslanadi:
*
J« 'fidan-to 'g'riyondjishii v
Transfer yomtasituifc
Interlingual yondash w v
3-rasm Qoidalarga asoslangan mashina tarjimasi strategiyalari
• To'g'ridan-to'g'ri yondashuv - asliyat tilida berilgan matn tarjima tilda so'zma-so'z tarjima qilinadi.
• Transfer yondashuvi - asliyat tili va tarjima til qoidalariga asoslangan holda tarjima tilidagi matn ko'rinishlarga o'tkaziladi.
• Interlingual yondashuv - asliyat til kiritish matnning semantik ifodasiga, interlingvaga aylanadi. Interlingua tarjima matnni yaratish uchun asosdir.
Qoidalarga asoslangan mashina tarjimasi bir muncha qiyin, chunki u vaqt va kuch talab qiladi.Qoidalarga asoslangan ti'zimlar kengayti'rilmaydi, chunki qoidalar qo'lda yozilishi kerak. Samaradorligi va sifati'ni yaxshilash uchun ko'proq qoidalar va ko'proq inson ishti'rokini talab qiladi. Misollarga asoslangan mashina tarjimasi
Misollarga asoslangan mashina tarjimasi(EBMT), bazi hollarda Hoti'raga asoslangan mashina tarijamsi deb ham yuritiladi, korpusga asoslangan metodlardan biri bo'lib ilk bor 1984- yilda Makato Nagao [6] tomonidan yarati'lgan. Misollarga asoslangan mashina tarjimasining asosiy jihati allaqachon tarjima qilingan misollar korpusi ma'lumotlar bazasidan foydalanish va tegishli misollarni olish uchun ushbu ma'lumotlar bazasiga yangi kiritilgan ma'lumotlarni moslashtirish jarayonini o'z ichiga oladi, so'ngra to'g'ri tarjimani aniqlash uchun analogik tarzda qayta birlashti'riladi. Harold Somersning fikriga ko'ra EBMT va misollarga asosan o'rganish (Exemple-Based Learning), hoti'raga asosan o'rganish(Memory-Based Reasoning), manba analogiyasi (Derivational Analogy) kabi Machine Learning(ML) texnikalari bilan o'xshash jihatlari ko'p [7]. Chunki ushbu texnikalar ham misollarga asoslangan mashina tarjimasi kabi oldindan mavjud bo'lgan ma'lumotlar bazasiga asoslangan holda yangi ma'lumotlarni o'zlashtiradi. Misollarga asoslangan mashina tarjimasi bilan deyarli bir vaqtda shakllanti'rilgan stati'sti'k uslublardan foydalangan holda tarjima qilish usulining paydo bo'lishi va uning
samadorlik darajasing yuqoriligi Misollarga asoslangan mashina tarjimasiga bo 'lgan qiziqish va izlanishlarga keskin tasir qildi. Statistik mashina tarjimasi
Statistik mashina tarjimasi - bu stati'stik modellar yordamida matnni bir ti'ldan boshqa ti'lga tarjima qilish usuli bo'lib qoidalarga asoslangan mashina tarjimasi yondashuvlaridan sezilarli darajada farq qiladi va u asosan 2000-yillarning boshlarida ommalasha boshladi. Statistik mashina tarjimasi stati'stik modellar va katta hajmdagi ikki ti'lli korpuslardan olingan ehti'mollar asosida ishlaydi. Statistik mashina tarjimasining asosiy vazifasi matnni bir ti'ldan boshqa ti'lga tarjima qilish uchun parallel ma'lumotlardan (asliyat va tarjima ti'llardagi jumlalar yoki hujjatlar orqali) o'rganilgan stati'stik ma'lumotlardan foydalanishdir.
Iii modeli *-
So'zlarni moslashiii'ish modeli
> D-skodiash al?o>iLffu
4-rasm. Statistik mashina tarjimasida qo'llaniladigan modellar
Jarayon parallel ma'lumotlar bo'yicha turli stati'stik modellarni o'qitishni o'z ichiga oladi, ularga quyidagilar kiradi:
• Tarjima modeli: Tarjima modeli parallel ma'lumotlarda kuzatilgan tarjimalar asosida so'zlar, iboralar yoki so'z birliklarini asliyat ti'ldan tarjima ti'lga qanday tarjima qilishni o'rganadi. U turli xil tarjima variantlariga ehtimollarni belgilaydi, bu ti'zimga kiriti'lgan jumlani hisobga olgan holda eng ehtimoliy tarjimani tanlash imkonini beradi.
• So'zlarni moslashtirish modeli: So'zlarni moslashti'rish modeli parallel ma'lumotlardagi asliyat va tarjima jumlalar o'rtasida alohida so'zlar yoki so'z birliklarini moslashtiradi. Bu tarjima jarayonida foydalaniladigan so'zma-so'z tarjimalarini shakllantirishga yordam beradi.
• Til modeli: Til modeli asliyat tildagi so'zlar ketma-ketligi ehti'molini baholaydi. Bu yarati'lgan tarjimalarning ravon va grammatik jihatdan to'g'ri bo'lishini ta'minlashga yordam beradi.
• Dekodlash algoritmi: dekodlash algoritmi stati'stik modellar va so'zlarni moslashti'rish ma'lumotlaridan asliyat tilda berilgan jumlalar uchun moslik ehtimolligi yuqori deb hisoblangan tarjimani yaratish uchun foydalanadi. Dekodlash jarayoni tarjima va til modellari asosida umumiy ehtimollikni maksimal darajada oshiradigan tarjimani qidirishni o'z ichiga oladi.
Kamchiliklari:
■ Kontekstning etishmasligi: Statistik mashina tarjimasi modellari ko'pincha uzoq muddatli bog'liqliklar va kontekstni qo'lga kiriti'shda qiynaladi, bu neyron mashina tarjimasi bilan solishtirganda manodorligi kamroq va sifati past bo'lgan kontekstli tarjimalarga olib keladi.
■ So'z ma'nosini ajratib ko'rsatish: Statistik mashina tarjimasi ti'zimlari so'z ma'nolarini ajratishda qiyinchiliklarga duch kelishi mumkin, bu esa tarjima xatolariga olib keladi.
• Kam ishlati'ladigan iboralarni tarimalash: Lug'at ma'lumotlarida mavjud bo'lmagan kamdan-kam yoki ko'rinmas iboralar stati'stik mashina tarjimasi modellari uchun muammoli bo'lishi mumkin.
Statistik mashina tarjimasi o'quv ma'lumotlarida kuzatilgan o'xshash jixatlar yangi, ko'rilmagan jumlalar uchun mos kelishi mumkin degan taxminga tayanadi. Shuning uchun stati'stik mashina tarjimasi ti'zimining sifati' va aniqligi ko'p jihatdan o'quv ma'lumotlarining hajmi va xilma-xilligiga bog'liq. Garchi neyron mashina tarjimasi o'zining yuqori ishlashi tufayli so'nggi yillarda asosan stati'stik mashina
tarjimasi o'rnini bosgan bo'lsa-da, statistik mashina tarjimasi asoslarini chuqur o'rganilishi hali juda ham muhim hisoblanadi, chunki u mashina tarjimasi sohasidagi ko'plab yutuqlarga yo'l ochdi.
Neyron Mashina Tarjimasi
Shuni ta'kidlash kerakki, SMT o'tmishda mashina tarjimasi uchun dominant yondashuv bo'lgan bo'lsa-da, neyron mashina tarjimasi yangi texnikalar, yanada murakkab lingvistik bog'liqliklar va uzoq muddatli kontekstni qo'lga kiritish qobiliyati tufayli ishlash va mashhurlik bo'yicha statistik mashina tarjimasidan oshib ketdi. Shunga qaramay, statistik mashina tarjimasi mashina tarjimasi tarixi va rivojlanishining muhim qismi bo'lib qolmoqda. Statistik mashina tarjimasi neyron mashina tarjimasi rivojlanishidan oldin eng ko'p o'rganilgan mashina tarjimasi usuli edi. Neyron mashina tarjimasi ham, statistik mashina tarjimasi kabi til tarjimasiga ma'lumotlarga asoslangan yondashuvlar sifatida tanilgan. Ya'ni, ular tushunchalarni olish va aniqlik/ish samaradorligini oshirish uchun katta hajmdagi ma'lumotlarga bog'liq. Ushbu ma'lumotlar odatda korpus formati'da (jumlalar/so'zlar/iboralar to'plami) taqdim etiladi.
Neyron mashina tarjimasi bosgqa mashina tarjimasi usullaridan farqli ravisgda matnni bir tildan boshqa ti'lga tarjima qilish uchun sun'iy neyron tarmoqlariga tayanadi. U Deep Learning tamoyillari asosida ishlaydi va tarjimalarni yaratish uchun turli ti'llardagi so'zlar o'rtasidagi bog'liqliklar va munosabatlarni o'rganish uchun neyron tarmoqlardan foydalanadi. Uning tizimining odatiy
arxitekturasi encoder-d
ecoder modelidan iborat. Buni 5-rasmda ko'rib chiqishimiz mumkin.
ENCODER
Asos rüijr fftflfw. ijiiViiii ishhtrndi. SeTiience pair/ Tckwizzniyz
EONTEZST VEETOEI
DECODER
.UTEMION MECHANISM
MA •LmiOTEHSNI 0 'QUISB
WD
TRAINING OBJECTIVE
OPTIMAL -LA SHTIRI53
Seittanie icALit qUadi vü fttem zifjimcsinüiz rrtma! i i ic/ii _v.i T-tji nW
K.'nixki.' nb DespL^aiitiiis^finui hoiil qilndi
AUgmnent f'.'Ttoihtshririshtpraifsssiitiltaiiircdi, tnijimn sif{mni uuttin.la.ydi tzseiiin ¿L^ufi jumlahirda)
Trcmi/iiy niijifltn DIdtugi ig 'g 'ft mrjima o 'rtnsidzgifaTqni n[irtikarüh xchxtt o'spwitsnkrixioprimzllasiinizdi
Tc's'n a:rji&ui?ti yamdsh shnitioüigwi fficfcrÜHni dtLrajsgn. ttskijaA:
Tarjiitti: zniqügüii yaxshiLish uchittt iföcfcijnf ^FüJeeitr dtscsiu (SGDJ op dnjcZl^yktL^jh slg&rimridaK/¿ndztnjt&di
5-rasm. Neyron mashina tarjimasi ishlash mexanizmi
Umuman olganda, neyron mashina tarjimasi keng ko'lamli til juftliklari va domenlarida aniqroq va ravon tarjimalarni yaratish uchun chuqur o'rganish usullaridan foydalangan holda mashina tarjimasi sohasida inqilob qildi va shu bilan bir qatorda katta hajmdagi o'quv ma'lumotlari va kuchli hisoblash resurslaridan foydalangan holda, neyron mashina tarjimasi modellari turli til juftliklari o'rtasida tarjima
qilishda ajoyib samaradorlikni ko'rsatdi va mashina tarjimasining eng zamonaviy usuliga aylandi.Uning kontekstual ma'lumotlarni olish va tildagi uzoq muddatli bog'liqliklarni boshqarish qobiliyati uni ti'llararo muloqot va kontentni mahalliylashtirish uchun kuchli vositaga aylantiradi. Moslashti'rish mexanizmlarining mashina tarjimasida tutgan o'rni
Moslashti'rish (alignment) mexanizmi statistik va neyron mashina tarjimasida hal qiluvchi rol o'ynaydi, bu modelga asos tildagi so'zlar yoki so'z birliklarini maqsadli tildagi tegishli analoglari bilan mosligini aniqlashni o'rganishga yordam beradi. Neyron mashina tarjimasida moslasgti'rishni ikki jihatga bo'lish mumkin: yengil moslashti'rish(soft alignment) va chuqur moslashti'rish (hard alignment). Soft alignment:
• Diqqat mexanizmi: Diqqat mexanizmi transformator kabi neyron mashina tarjimasi modellarining asosiy komponentidir. Bu modelga maqsad jumladagi har bir so'zni yaratishda asos jumlaning turli qismlariga e'tibor qaratish imkonini beradi. Soft alignment maqsad jumlada yaratilgan har bir so'z uchun asos jumladagi har bir so'zga tayinlangan diqqat ballari orqali erishiladi.
• Roli: Bu modelga manba va maqsad tillardagi so'zlar o'rtasidagi bog'liqlik va munosabatlarni dinamik ravishda qo'lga kiritishga yordam beradi. Modelga aniq va kontekstga mos tarjimalarni yarati'sh imkonini beradi.
Hard alignment:
• So'zlarni moslashti'rish modellari: An'anaviy statistik mashina tarjimasi ti'zimlarida hard alignment IBM modellari yoki Hidden Markov modellari (HMMs) kabi usullar yordamida aniq modellashtirilgan. Ushbu modellar har bir token asosida asos va maqsadli so'zlarni moslashtirishni o'rganadilar.
• Roli: U aniq so'zdan so'zga moslashti'rish ma'lumotlarini taqdim etadi, bu esa keyingi ishlov berish va tahlil qilish uchun qimmatli bo'lishi mumkin. Tarjimalarda so'zlarni o'zgartirish va moslashti'rish masalalarini hal qilishga yordam beradi.
Neyron mashina tarjimasida moslashtirishning o'ziga xos rollariga quyidagilar kiradi:
• So'zlarni qayta tarti'blash: Moslashti'rish neyron mashina tarjimasi modeliga to'g'ri so'z tartibini va tillar orasidagi o'zaro moslikni o'rganishga yordam beradi. Bu juda muhim, chunki ti'llar ko'pincha turli xil so'z tartibi, grammatik va sti'listi'k tuzilmalariga ega.
• Noaniqlikni bartaraf qilish uchun ishlov berish: Moslashti'rish manba tilidagi so'z yoki iboralarni farqlashda yordam beradi va modelga kontekst asosida maqsadli tilda eng mos tarjimani tanlash imkonini beradi.
• Lug'atdan tashqari so'zlar: Moslashti'rish lug'atdan tashqari so'zlarni boshqarishda yordam beradi, bu esa modelga ularni ma'lum so'zlar bilan moslashtirishga imkon beradi va ko'rinmaydigan atamalar uchun tarjimalarni yaratishga imkon beradi.
• Kontekstli tarjima: Diqqat mexanizmlari orqali soft alignment neyron mashina tarjimasi modeliga har bir maqsadli so'zni yaratishda yaxlit asos jumlasini ko'rib chiqishga imkon beradi. Ushbu kontekstual ma'lumotlar tarjimalarning umumiy sifatini yaxshilaydi.
• Uzun jumlalar bilan ishlash: Moslashti'rish mexanizmlari modelga uzun jumlalarning tegishli qismlariga e'tibor qaratishga yordam beradi, axborot yo'qolishining oldini oladi va tarjima sifatini yaxshilaydi.
• Moslashti'rish: Moslashti'rish neyron mashina tarjimasi modellariga ushbu kontekstlarga xos moslashti'rish jihatlarini o'rganish orqali muayyan domenlarga yoki tarjima vazifalariga moslashishga imkon beradi.
Xulosa qilib aytadigan bo'lsak, neyron mashina tarjimasidagi soft alignment ham, hard alignment ham, model uchun asos va maqsad tillardagi so'zlar o'rtasidagi munosabatlarni tushunish uchun juda muhimdir. Bu modelga to'g'ri va kontekstga mos tarjimalarni yarati'sh, so'zlarni qayta tarti'blash va ti'llar o'rtasidagi lingvisti'k farqlar tufayli yuzaga keladigan turli tarjima muammolarini hal qilish imkonini beradi.
2-jadval Mashina Tarjimalarining is llash mexanizmlarining umumiy va farqli jixatlari
Imkoniyatlari RBMT EBMT SMT NMT
Ko'p ti'lli korpusga asoslanadi + + + +
Mavjud ma'lumotlar bazasiga tayanadi - + - -
Grammati'k qoidalarga asoslanadi + - - -
Moslashtirish usulidan foydalanadi - - + +
Ehtimoliy va neyron modellardan foydalanadi - - + +
Xulosa.
Xulosa qilib aytishimiz mumkinki, mashina tarjimasi sohasi tabiiy tilni qayta ishlash sohasidagi tadqiqotlarning asosiy yo'nalishi bo'lib kelmoqda va bugungi kunga qadar ko'plab ijobiy rivojlanish bosqichlaridan o'ti'b kelgan bo'lsa ham mukammallik darasidan hali ham uzoqda. Chunki bugungi kundagi MTlar texnik va ilmiy turdagi matnlarni to'g'ri va samarali tarjima qilayotgan bo'lsa ham badiiy janrdagi ko'plab ibora va ideomalarga boy bo'lgan asarlarni tabiiy va mukammal tarzda tarjima qila olmaydi. Mashina tarjimasi sifatini yaxshilash doimiy ravishda tadqiq qilinib kelayaotgan va bir muncha murakkab jarayon bo'lib, ma'lumotlar, texnologiya, inson tajribasi va fikr-mulohazalarni birlashtirishni talab qiladi. Ayniqsa, turli lingvistik va domen kontekstlarida yuqori aniqlik va ravonlikka erishish uchun tarjima tizimini doimiy ravishda takrorlash va takomillashtirish juda muhim. Ko'plab tadqiqotchilarning fikriga ko'ra bunday muammolarni hal qilishning samarali yo'li gibrid(statistik ma'lumotlar va qoidalarni birlashtirgan holda) uslubidan foyadalanadigan MTlarni yaratishga e'tibor qaratish.
Foydalanilgan adabiyotlar ro'yhati
John Hutchins, "The first public demonstration of machine translation: the Georgetown-IBM system, 7th January 1954", AMTA conference, Sentyabr, 2004 (Hutchins 2004).
Paul l. Garvin," the Georgetown-IBM experiment of 1954: an evaluation in retrospect", An office of scientific research of the office of Aerospace Research, 1967.
Angeliki Petrits, "Ec Systran: the commission's machine translation system", European Commission Translation Service, 30 Avgust 2001, 4-5 b.
Ilya Pestov, "A history of machine translation from the Cold War to deep learning", We've moved to https://freecodecamp.org/news
D.Elliot, "Corpus-based machine translation evaluation via automated error detection in output texts". Nashr qilinmagan doktorlik dissertatsiyasi, University of Leeds, 2006.
Ralf Brown, "Example-based Machine Translation", Fifth Biennlal Conference for the Association of Machine Translation in the Americas, 9 oktyabr,2022.
Harold Somears, "Review Article: Example-based MachineTranslati'on", Kluwer Academic Publishers, Nederlandiya, 2001.
Nilufar Abdurahmonova, " Mashina tarjimasining lingivisti'k asoslari", Akademnashr, Toshkent, 2012.
Brown P.F., Lai J.C., Mercer R.L. (1991). Aligning sentences in parallel corpora. Proceedings of the 29th annual meeting on Association for Computational Linguistics. Association for Computational Linguistics. (169-176b)
Danielsson P., Ridings D. (1997, Fevral). Practical presentation of a "vanilla" aligner. TELRI Workshop in alignment and exploitation of texts, Fevral.
Fung P., Church K.W. (1994, Avgust). K-vec: A new approach for aligning parallel texts. Proceedings of the 15th conference on Computational linguistics. Association for Computational Linguistics. (1096-1102b)
Fung P., McKeown K. (1994). Aligning noisy parallel corpora across language groups: Word pair feature matching by dynamic time warping.
Gale W.A., Church K.W. (1993). A program for aligning sentences in bilingual corpora. Computational linguistics, 19(1), (75-102b).