Научная статья на тему 'TARJIMA TEXNOLOGIYASINI RIVOJLANTIRISHDA PARALLEL KORPUSLARNING O‘RNI'

TARJIMA TEXNOLOGIYASINI RIVOJLANTIRISHDA PARALLEL KORPUSLARNING O‘RNI Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
0
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
neyro mashina tarjimasi / parallel korpus / o‘zbek tilining electron korpusi / ochiq resursli platformalar

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Abduraxmonova Nilufar, Iskandarova Aybibi, Xolmurodova Iroda

Ushbu tezisda parallel korpusga asoslangan tarjima texnologiyasi, ya’ni mashina tarjimasi tizimini yaratish, uning matn bilan bog‘liq masalalarni hal qilish usuli sifatida korpusga asoslangan yondashuvlarning optimal yechimlari, shu bilan birga o‘zbek tili uchun parallel korpusga asoslagan tarjima texnologiyasini yaratishning muhim jihatlari haqida analitik ilmiy yondashuvlar tahlilga tortilgan.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «TARJIMA TEXNOLOGIYASINI RIVOJLANTIRISHDA PARALLEL KORPUSLARNING O‘RNI»

TARJIMA TEXNOLOGIYASINI RIVOJLANTIRISHDA PARALLEL KORPUSLARNING O'RNI

*Abduraxmonova Nilufar, 2Iskandarova Aybibi, 3Xolmurodova Iroda

1O'zbekiston Milliy universiteti Kompyuter lingvistikasi va amaliy tilshunoslik kafedrasi mudiri,

filologiya fanlari doktori (DSc), professor 2O'zbekiston Milliy universiteti Kompyuter lingvistikasi va amaliy tilshunoslik kafedrasi dotsenti, filologiya fanlari nomzodi; O'zbekiston Milliy universiteti 3Kompyuetr lingvistikasi magistratura mutaxassisligi magistranti https://doi.org/10.5281/zenodo.13989731 Annotatsiya. Ushbu tezisda parallel korpusga asoslangan tarjima texnologiyasi, ya'ni mashina tarjimasi tizimini yaratish, uning matn bilan bog'liq masalalarni hal qilish usuli sifatida korpusga asoslangan yondashuvlarning optimal yechimlari, shu bilan birga o'zbek tili uchun parallel korpusga asoslagan tarjima texnologiyasini yaratishning muhim jihatlari haqida analitik ilmiy yondashuvlar tahlilga tortilgan.

Kalit so'zlar: neyro mashina tarjimasi, parallel korpus, o'zbek tilining electron korpusi, ochiq resursli platformalar

Abstract. In this paper, the parallel corpus-based translation technology, that is, the creation of a machine translation system, the optimal solutions of corpus-based approaches as a method of solving text-related problems, and the important aspects of the creation of the parallel corpus-based translation technology for the Uzbek language, and analytical scientific approaches in parallel corpus based machine translation systems are discussed.

Keywords: neural-machine translation, parallel corpus, electronic corpus of Uzbek language, open resource platforms.

Аннотация. В данной статье рассматриваются технология перевода на основе параллельных корпусов, то есть создание системы машинного перевода, оптимальные решения корпусных подходов как метода решения текстовых задач, важные аспекты создания технологии перевода на основе параллельных корпусов для узбекского языка, а также аналитические научные подходы в системах машинного перевода на основе параллельных корпусов.

Ключевые слова: нейронно-машинный перевод, параллельный корпус, электронный корпус узбекского языка, платформы открытых ресурсов.

Bugungi kunda parallel korpusning turli platformlari yaratilgan bo'lib, ularning ilmiy va amaliy ahamiyati xususida qator izlanishlar olib borilgan. Bugungi kunda parallel korpus yaratishning avtomatik texnologiyalari ishlab chiqilgan bo'lib, ularning aksariyati Yevropa tillari uchun instrumentariy vazifasini bajaradi. Shular qatoriga web sahifalardagi korpuslari generatsiya qiluvchi Bitextor instrumentariysini keltirish mumkin. U yaxlit ravishda web-saytni yuklab olib, fayllardagi tillarni aniqlaydi va o'xshash mazmundagi matnlarni muvofiqlashtiradi, so'ng ularni html yoki xml formatda bazaga saqlaydi. Hujjatlar hajmi va muqobil tarjima birliklari bo'yicha tarjima xotirasiga (Translation Memory eXchange -TMX) uzatiladi1. Bitextorning keyingi versiyalari yanada takomillashtirilb, URL (Uniform Resource Locator) va so'zlar to'plami (bag-of-words) modeli asosida filtrlash imkoniyatiga ham ega bo'ldi.

1 Kudela J. Mining Parallel Corpora from the Web. (master's thesis). Prague, 2016. - P.4.

Avtomatik usulda parallel korpus yaratishning yana bir turi PaCo2 instrumentariysi orqali ko'rsatish mumkin. Mazkur texnologiya internetdan parallel korpuslarni yig'ishga mo'ljallangan to'liq avtomatlashtirilgan tizim hisoblanadi2. U ham tanlagan tillar bo'yicha bilingval kontentli web-saytlardan ma'lumotlarni yuklash imkoniyatiga ega. Tilni tanlash ixtiyoriy bo'lgani uchun ham ushbu instrument barcha tillar uchun moslasha oladi. U uch asosiy bosqichga ega: 1- bosqichda bilingval kontentli web-saytlarni muayyan til bo'yicha qidiradi. 2-bosqichda dastlabki bosqichda aniqlangan saytdagi parallel web-sahifalar ajratiladi. So'nggi bosqichda parallel web-sahifalar parallel korpus sifatida har bir gapning muqobil juftlari bo'yicha guruhlanadi.

Parallel korpuslar yordamida so'z va so'z birikmalarining o'zaro valentliklarini belgilash

muayyan guruhga kiruvchi leksik-semantik guruhdagi so'zlarning semantik maydonini aniqlash, qolaversa, mashina tarjimasi uchun tarjima sifatini oshirishga hizmat qiladi.

STRAND parallel korpus instrumentariysi hisoblanib, tarjimalarni strukturaviy aniqlash imkoniyatiga ega tizim hisoblanadi3. Ushbu texnologiya web-sahifalardagi parallel juftlarini aniqlashga qaratilgan. U oddiy saytlardagi mazmuniy o'xshashligi bo'lgan matnlarni avtomatik tahlil qiladi.

Bugungi kunda mashina tarjimasi tizimlari uchun ochiq platformali parallel korpus bazalari yaratilmoqda. Opus parallel korpus platformasi (http://opus.nlpl.eu/) lingvistik resurslar, korpus interfeysi va parallel matnlar bazasidan tashkil topgan. Qayd etish lozimki, ilk bor o'zbek tili uchun Tanzil deb nomlangan elektron resursda Qur'oni Karimning o'zbek tilidagi tavsirig parallel matn sifatida bazaga kiritilgan.

NLP4 texnologiyalarining ilmiy yutuqlari natijasida parallel korpuslari asosida lug'atshunoslik, amaliy tilshunoslik, tarjima nazariyasi va amaliyoti, mashina tarjimasi kabi qator sohalarda ijobiy natijalarga erishilmoqda. Xususan, muqobil segmentlarga asoslangan parallel korpus asosida mashina tarjimasining ilgarilab borayotganiga qator misollarni keltirish o'rinli. Xususan, Google tarjimonning bugungi imkoniyati neyrotarmoq (1-rasm) orqali amalga oshiruvchi imkoniyati 243 ta tilni qamrab oladi. Unga ko'ra bir nechta lingvistik resurursning matn holatida (inson tomonidan yaratilgan parallel matnlar) statistik jihatdan o'qitilishi chiquvchi axborotning sifati uchun omil bo'ladi. Ya'ni tabiiy tilni qayta ishlashda tarjimon xotirasida saqlangan parallel korpuslarning imkoniyatiga qarab tarjima sifati ham oshib boradi.

Mashina tarjimasida korpusning quyidagi turlari farqlanadi: parallel korpus, multilingval korpus, chog'ishtirma korpus. Manbaga ko'ra5, 1990-yillarda tarjima sohasidagi tadqiqotchilar deskriptiv tarjima tadqiqotlarida tarjima matnlarning kommunikativ media sifatidagi mohiyatini ochib berish uchun korpusdan foydalana boshlaganlar. 1995-yilda Manchester universiteti ilmiy tadqiqot markazi professori Beker tomonidan dastlabki

2 O'sha joyda. - P. 7.

3 O'sha joyda. - P. 10 .

4 https://ru.wikipedia.org/wiki/Google

5 Zhou Dajun and Wang Yun Corpus-based Machine Translation: Its Current Development and Perspectives // International Forum of Teaching and Studies Vol. 11 No. 1-2 2015 -P. 90

chog'ishtirma korpus yaratilgan. Bu esa bir necha yillar davomida mashina trajimasini yaxshilashga, ayniqsa, tarjima muqobillarini aniqlashda muhim vazifani hal etishga yordam berdi. Zotan tarjima tabiatini ochib berish, qolaversa, uning imkoniyatlari matnni holis va ilmiy jihatdan tadqiq etishda katta rol o'ynadi.

Eassa Ali Mohammed Ali va boshq6. tomonidan olib borilgan kuzatishlarda korpus asosida tarjima sifatining quyidagi jihatlarini ta'sir ko'rsatishini ingliz va arab tilining chog'ishtirma holatida izohlashga harakat qiladi: 1) -muhit; 2) -grammatik farq; 3) konnotativ ma'no; 4) akronim va abbreviatura; 5) yangi termin va tushunchalar.

Parallel korpusning NLPdagi roli turlicha. Ayniqsa, mashina tarjimasi uchun nuhim lingvistik resurs vazifasini bajaradi. Shuningdek, monolingval chog'ishtirma korpus ham tarjima qilingan matnning umumiy xususiyatlarini belgilashda muhim ahamiyat kasb etadi. Word embedding, ya'ni so'zlarning vektor holatda berilishi mashina trajimasi uchun muhim sanaladi. Zotan so'zni o'qitib olish metodlaridan Word2Vec, ya'ni neyron tarmoq orqali berilgan kontekstdagi asliyatdagi so'zni qurshab turgan so'zlarni tahmin qilish yoki GloVe vektorlarni yaratish uchun umumiy statsitikadan foydalanish orqali erishiladi. Bu esa mashina tarjimasi tizimlarida so'zlarni joylashtirish orqali so'zlarni bashorat qilishga yordam beradi, ayni damda asliyatdagi va tarjima til o'rtasidagi tarjima birliklari o'rtasidagi semantik munosabatlarni yaxshilashga erishiladi7.

Zhou Dajun korpusga asoslangan MT tizimlarining kelajakdagi rivojlanishini ikki jihatga qaratadi. Birinchidan, yangi ijtimoiy fanlar va axborot texnologiyalari yutuqlari takomillashtirish maqsadida turli tadqiqotlarga integratsiya qilinadi, buning natijasida MT tizimining ishlashi va sifati oshib boradi. Zotan kelgusida neyrolingvistika, tuzilgan neyrologiya va lingvistikaning eng chuqur mexanizmini tushunishga yordam beradi. Kishilar tilni qayta ishlaydi va bu nazariyani qo'llash korpus samaradorligini sezilarli darajada oshiradi. Shuningdek, yangi sun'iy intellekt texnologiyasini yaratishda kognitiv bilimlar bazasi sifatida tilni tahlil qilish va qayta ishlash muhim ahamiyat kasb etadi.

Neyro tarmoq orqali mashina tarjimasini amalga oshirishda ikki bosqich amalga oshiriladi:

- kodlash

- dekodlash

Parallel korpusning amaliy hamiyati turli integrallashgan sohalarda turli vazifalarda qo' llanadi:

-mashina tarjimasi

- kompyuter yordamida til ta'limi

- kompyuter leksikografiyasi

- kompyuter yordamida tarjima qilish amaliyoti (CAT).

Tarjima texnologiyasini rivojlantirishda parallel korpuslarning kontentini yig'ish va uni lingvistik baza sifatida yig'ish muhim sanaladi. Bu borada Muskaan Singh va boshqalar8 tomonidan olib borilgan tadqiqotda mashina tarjimasi tizimining bosqichini quyidagi chizmada aks ettirishgan:

6 Ali Mohammed Alii, Ameen Ali Mohammed Al-Gamal // CORPUS-BASED MACHINE TRANSLATION Eassa IJRAR- International Journal of Research and Analytical Reviews VOLUME 8 I ISSUE 3 I JULY-SEPT 2021

7 https://www.ibm.com/topics/word-embeddings

8 Muskaan Singha ,Ravinder Kumara ,Inderveer Chana Corpus based Machine Translation System with Deep Neural

Network for Sanskrit to Hindi Translation // International Conference on Computational Intelligence and Data Science (ICCIDS 2019), Procedia Computer Science 167 (2020) 2534-2544.

Demak, parallel koprpus yaratish jarayoni ma'lumot tahlili, ma'lumotni qayta ishlash hamda generatsiya qilish bosqichlarda amalga oshiriladi. Olimlar Sanskrit tilidan hindi tiliga korpus asosida mashina tarjima qilish texnlogiyasi bilan qoidaga asoslangan mashina tarjimnasini xatolik indikatorini tahlil qilishganda quyidagi natijani taqdim etishadi:

Parallel matnlarning mos juftliklarini tuzish uchun inson tomonidan tahrir qilingan matnlar kiritilib, lug'at orqali matnda uchragan segment birliklarlarga qarab avtomatik tarzda tarjima birliklari aniqlanadi. Buning uchun ikki tilga mos leksik va grammatik jihatdan ishlab chiqilgan variantlar lug'atga kiritilgan bo'lishi kerak. Parallel korpus quyidagi maqsadlarda qo'llanadi9:

• ikki yoki ko'p tilli tarjima lug'atlar tuzishda;

• mashina tarjima tizimlari uchun lug'at yaratish va uni doimiy tarzida to'ldirib

borish;

• kontekstda uchraydigan ko'p ma'noli so'zlarning kompyuter tahlili orqali leksik birliklarni polisemiyaga oidligini aniqlash;

• matndagi terminologik va frazeologik birliklarni tarjima qilish;

• korpusdan foydalangan holda tarjimalarning mos variantlarini kompyuter xotirasiga yuklash va shu orqali mashina tarjimasi tizimi uchun to'liq avtomatik tarjimani amalga oshirish.

Leksikani avtomatik tasniflash matnni avtomatik tushunish uchun asosiy amallardan biri hisoblanadi10.

Tarjima instrumentlariga tarjima xotirasi texnologiyasiga (translation memory) asoslangan Trados dasturi hamda WinAlign tarjima texnologiyasi kiradi (CAT -computer assisted translation). Ushbu dasturlar Translator's workbench va MultiTerm bazasi asosida yaratilgan. Bunda jumlalar sifatida nuqta yoki gap uchun ishlatiladigan boshqa ishoraviy belgilargacha bo'lgan qator gap sifatida segmentlarga ajratiladi. Professional tarjimonlar orqali qilingan tarjima matnlar parallel ravishda kompyuter xotirasiga yuklanadi. Keyingi safar avvalgi qilingan tarjimaga o'xshash matn yoki ibora uchrasa, kompyuter foiz ko'rsatkichida segment o'xshashlikni ilova qiladi. Bu esa tarjimonga muayyan yo'nalishda tarjima qilinayotgan asarni qayta tarjima qilmay, bazada mavjud ekvivalentlikni topish ixtiyorini voqelantiradi. Bunda

9 О^Ьа joyda. - С 21.

10 Беляева Л.Н. Лексикографический потенциал параллельного корпуса текстов // Труды международной конференции «Корпусная лингвистика - 2004» - СПб., 2004. - С. 55-64.

ma'lumotlarni foydalanuvchilar tomonidan boyitib borilgan tarjimalar hisobiga kompyuter xotirasidagi asos va tarjima til uchun yaratilgan tayyor tarjima qoliplari hosil bo'ladi. Manbalarda qayd etishicha, ushbu tarjima uskunlaridan foydalanib inglizcha ilmiy matnlar nemis tiliga tarjima qilinganda, 28% tezroq mehnat samaradorligiga erishish mumkin11.

Parallel korpus nafaqat mashina tarjimasi uchun lingvistik resurs, balki bilingval lug'atshunoslik, qiyosiy tarjima, chog'ishtirma tilshunoslik kabi sohalar uchun muhim manba bo'lib hizmat qiladi. Endilikda neyro yoki statistik mashina tarjimasi uchun parallel matnlarning ma'lumotlar bazasini yaratish va uning lingvistik jihatlarini chuqur o'rganishning asosiy obyekti sanaladi. Nechog'lik tarjima xotirasiga yuklangan tarjima matnlarning muqobil juftliklari aniqlanib, boyitib borilsa, kelajakda turli uslubga tegishli avtomatik tarjima qiluvchi tarjimon dasturlarning sifatini yaxshilashda qo'l keladi. Shuningdek, parallel ravishda yaratilgan og'zaki (Parallel WaveNet) va yozma matnlar nutq sintezatoriga doir tadqiqotlar olib borishda mashina fondi vazifasini o'tamoqda.

FOYDALANILGAN ADABIYOTLAR

1. Abdurakhmonova, N., Alisher, I., & Sayfulleyeva, R. (2022, September). MorphUz: Morphological Analyzer for the Uzbek Language. In 2022 7th International Conference on Computer Science and Engineering (UBMK) (pp. 61-66). IEEE.

2. Abdurakhmonova, N., Alisher, I., & Sayfulleyeva, R. (2022, September). MorphUz: Morphological Analyzer for the Uzbek Language. In 2022 7th International Conference on Computer Science and Engineering (UBMK) (pp. 61-66). IEEE.

3. Abdurakhmonova, N., Alisher, I., & Toirova, G. (2022, September). Applying Web Crawler Technologies for Compiling Parallel Corpora as one Stage of Natural Language Processing. In 2022 7th International Conference on Computer Science and Engineering (UBMK) (pp. 73-75). IEEE.

4. Abdurakhmonova, N., Shakirovich, I. A., & O'G'Li, K. N. S. (2022). Morphological analyzer (morfoAnalyse) Python package for Turkic language. Science and Education, 3(9), 146-156.

5. Abdurakhmonova, N., Tuliyev, U., Ismailov, A., & Abduvahobo, G. (2022). UZBEK ELECTRONIC CORPUS AS A TOOL FOR LINGUISTIC ANALYSIS. In Компьютерная обработка тюркских языков. TURKLANG 2022 (pp. 231-240).

6. Abduraxmonova, N. Z. Q., & Urazaliyeva, M. Y. (2022). O 'ZBEK TILI ELEKTRON KORPUSIDA (http://uzbekcorpus. uz/) OG 'ZAKI MATNLAR KORPUSINI YARATISHNING NAZARIY VA AMALIY MASALALARI. Academic research in educational sciences, 3(3), 644-650.

7. https://www.ibm.com/topics/word-embeddings

8. Ismailov, A. S., Shamsiyeva, G., & Abdurakhmonova, N. (2021). Statistical machine translation proposal for Uzbek to English. Science and Education, 2(12), 212-219.

9. Marcos Z., Mihaela V. Quantifying the Influence of MT Output in the Translators' Performance: A Case Study in Technical Translation / Workshop on Humans and Computer-assisted Translation, Gothenburg, Sweden, 2014. - P. 93-98.

11 Marcos Z., Mihaela V. Quantifying the Influence of MT Output in the Translators' Performance: A Case Study in Technical Translation / Workshop on Humans and Computer-assisted Translation, Gothenburg, Sweden, 2014. - P. 93-98.

10. Marcos Z., Mihaela V. Quantifying the Influence of MT Output in the Translators' Performance: A Case Study in Technical Translation / Workshop on Humans and Computer-assisted Translation, Gothenburg, Sweden, 2014. - P. 93-98.

11. Muskaan Singha ,Ravinder Kumara ,Inderveer Chana Corpus based Machine Translation System with Deep Neural

12. Network for Sanskrit to Hindi Translation // International Conference on Computational Intelligence and Data Science (ICCIDS 2019), Procedia Computer Science 167 (2020) 2534-2544.

13. Абдурахмонова, Н., & Абдувахобов, Г. (2021). O 'QUV LUG 'ATINI TUZISHNING NAZARIY METODOLOGIK ASOSLARI. МЕЖДУНАРОДНЫЙ ЖУРНАЛ ИСКУССТВО СЛОВА, 4(6).

14. Абдурахмонова, Н., & Бойсариева, С. (2023). TABIIY TILNI QAYTA ISHLASHDA (NLP) OKKAZIONALIZMLARNING MORFEM TAHLILI. МЕЖДУНАРОДНЫЙ ЖУРНАЛ ИСКУССТВО СЛОВА, 6(3).

15. Беляева Л.Н. Лексикографический потенциал параллельного корпуса текстов // Труды международной конференции «Корпусная лингвистика - 2004» - СПб., 2004. - С. 5564.

i Надоели баннеры? Вы всегда можете отключить рекламу.