PARALLEL KORPUS TIZIMINING KORPUS MENEJERI
IMKONIYATLARI
Eshmamatova Mahliyo Xamzayevna
o'qituvchi DTPI https://doi.org/10.5281/zenodo.13945062
Annotatsiya. Moslashtirilgan parallel korpuslar ham bir tekisda moslashadi, paragraf darajasi, jumla darajasi yoki alohida so 'zlar darajasi. Muayyan maqsadlar uchun moslashtirilgan parallel korpuslar hisoblash tilshunosligida ko 'p tilli ishlov berish uchun asosiy lingvistik resurslardir. Ushbu korpuslar katta hajmdagi terminologik ma 'lumotlarni tizimli qayta ishlash va chet tilidagi atamalar va ularning ekvivalentlarini avtomatik yoki yarim avtomatik ravishda olish imkonini beradi. Ochiq manbalardan olingan ma'lumotlar asosida mezonlarga mos keladigan ma'lumotlar bazasi va ma'lumotlar omborini qidirish va tahlil qilish amalga oshirildi. Milliy ish menejerlarini rivojlantirish uchun kopincha o'zlarining ijobiy va salbiy tomonlariga ega bo 'lgan tayyor yechimlar qo 'llaniladi.
Kalit so'zlar: parallel korpus, mashina tarjimasi, korpus menejeri, ekvivalent.
Abstract. Adapted parallel housings also adapt evenly, paragraph level, level of sentence or level of separate words. Parallel buildings adapted for specific purposes are key linguistic resources for multilingual treatment in the calculation science of calculation. These houses allow you to automatically or semi-free from systematic data and foreign language terms and their equivalents. Based on the data obtained from open sources, the search and analyzing the database and database corresponding to the criteria. To develop national business managers, it is often used ready-made solutions with their pros and cons.
Keywords: parallel house, machine translation, corps manager, equivalent.
Аннотация. Адаптированные параллельные корпуса также адаптируются на уровне абзаца, предложения или отдельного слова. Специально разработанные параллельные корпуса являются ключевыми лингвистическими ресурсами для многоязычной обработки в компьютерной лингвистике. Эти корпуса позволяют систематически обрабатывать большие объемы терминологических данных и автоматически или полуавтоматически находить иноязычные термины и их эквиваленты. На основе информации из открытых источников был проведен поиск и анализ соответствующих критериям баз данных и хранилищ данных. Часто существуют готовые решения, имеющие свои плюсы и минусы для развития национальных менеджеров по работе с клиентами.
Ключевые слова: параллельный корпус, машинный перевод, менеджер корпуса, эквивалентность.
Parallel va moslashgan parallel soha korpuslari (ya'ni, ma'lum maqsadlar uchun korpuslar) terminologik va qiyosiy tilni o'rganish uchun alohida ahamiyatga ega. Parallel korpus ikki yoki undan ortiq tildagi ekvivalent matnlarni (asl nusxa va uning tarjimalari) o'z ichiga olgan ikki yoki ko'p tilli to'plam. Ba'zi hollarda parallel korpuslar faqat bitta tildagi matnlarni, ya'ni bir xil matnning bir tilga turli tarjimalarining juftlari yoki guruhlarini o'z ichiga olishi mumkin. Parallel bo'lishdan tashqari (tarjima ekvivalentlarini o'z ichiga olgan), moslashtirilgan parallel korpuslar ham bir tekisda moslashadi, paragraf darajasi, jumla darajasi yoki alohida so'zlar darajasi. Muayyan maqsadlar uchun moslashtirilgan parallel korpuslar hisoblash tilshunosligida ko'p tilli ishlov berish uchun asosiy lingvistik resurslardir. Ushbu korpuslar katta
hajmdagi terminologik ma'lumotlarni tizimli qayta ishlash va chet tilidagi atamalar va ularning ekvivalentlarini avtomatik yoki yarim avtomatik ravishda olish imkonini beradi. Aligned parallel korpus yordamida olingan leksik bilim tabiiy tilni qayta ishlashda (NLP) alohida ahamiyatga ega, masalan. mashina tarjimasi uchun dasturiy ta'minot tizimlari va vositalarini ishlab chiqish, ikki tilli elektron terminologik lug'atlar, lug'atlar, leksikonlar va atamalar bazasi ma'lumotlarini yaratish va h.k .
1-rasm Mashinali tarjima tizimlarining tasnifi
Korpus-menejer qidiruv tizimining arxitekturasi va ma'lumotlar bazasini ishlab chiqish turli ma'lumotlar bazalarining barcha zarur funktsiyalarini tahlil qilish va sinovdan o'tkazishni o'z ichiga oladi. To'g'ri ishlash, yetarlicha tez va lingvistik jihatidan optimal mashina resurslaridan foydalanish, qidiruv tizimi deyarli butunlay tizimning to'g'ri arxitekturasiga va ma'lumotlar bazasiga bog'liq. Tatar korpusi uchun boshqaruv tizimini ishlab chiqish (http://tugantel.tatar) Tatar milliy korpusining ma'lumotlar bazasini qidirish imkoniyatlarini kengaytirishga qaratilgan. Tatar tilini o'rganish ko'p jihatdan tatar tilining korpus boshqaruvchisining gumanitar va ta'lim dasturlarida qo'llanilishiga tayanadi. Milliy ish menejerlarini rivojlantirish uchun ko'pincha o'zlarining ijobiy va salbiy tomonlariga ega bo'lgan tayyor yechimlar qo'llaniladi. Bunday yechimlar ko'pincha xususiydir, mos ravishda, korpus ma'lumotlari bilan ishlash uchun matnlar to'plami yoki matnlar to'plamining bir qismi sifatida foydalanish mumkin emas. Korpusni boshqarish tizimlarini ishlab chiqish bilan bog'liq ko'plab ishlar mavjud. Milliy til korpusi bilan ishlaydigan ko'plab qidiruv tizimlari tayyor texnologiyalardan (dvigatellardan) foydalanadi. Misol uchun, Yandex, Server qidiruv tizimi Rossiya Milliy korpusi uchun ishlatiladi. Bunday tizimlar tez va ko'p funksiyali qidiruv tizimi hisoblanadi. Yandex, Server xususiy tizim bo'lib, uning to'liq versiyasi tijorat asosida tarqatiladi. Qidiruv tizimi to'g'ridan-to'g'ri va teskari qidiruv so'rovlarini bajarishga, morfologik xususiyatlar bo'yicha qidirishda OR mantiqiy operatsiyalaridan foydalanishga imkon beradi. Tizim murakkablashtirilmagan morfologik xususiyatlar bo'yicha qidiruv so'rovlarini bajarish uchun, chunki u dastlab to'g'ridan-to'g'ri qidiruv so'rovlarini bajarish va lemmalar bo'yicha qidirish uchun mo'ljallangan. Bunday tizimlardan foydalanish juda katta ma'suliyat talab qiladi
va eng yaxshi natijalar uchun dasturiy ta'minot muhitini yaratish lozim. Yana bir muhim ish -Chexiya milliy korpus. U asosida ishlab chiqilgan. Quyidagi xususiyatlarga ega Sketch Engine tizimi: hujjatlarning ixtiyoriy metama'lumotlarini qo'llab-quvvatlaydi, o'z so'rovlar tilini (CQL -Corpus Query Language) ishlatadi, teskari va iborali qidiruvni qo'llab-quvvatlaydi, korpus va ishlab chiqarish statistikasini ko'rish imkonini beradi.
Dasturiy ta'minot va tizimlar parametrlar bo'yicha so'z shakllari va n-grammlar ro'yxatini tanlash. Shuningdek, tizim turli formatdagi hujjatlar bilan ishlashi mumkin va ularni saqlash uchun NoSQL ma'lumotlar bazasidan foydalanadi. Biroq, Sketch Engine bir qator cheklovlarga ham ega: qidiruv natijalarida morfologik belgilar ko'rsatilmaydi, teskari qidiruvdan foydalanish qiyin, ba'zi qidiruv so'rovlarini bajarish uchun uzoq vaqt talab qilinishi mumkin, tizim murakkab qidiruv so'rovlari uchun optimallashtirilmagan. Tatar tilidagi korpus-menejerning dasturiy ta'minotini amalga oshirish uchun tizim vazifalarini hal qilish uchun biroz o'zgartirilgan MVC (Model-View-Controller) kontseptsiyasi qo'llanilgan. Tizimga berilgan har qanday vazifani bajarishning asosiy sxemasi 2-rasmda ko'rsatilgan. Tizim elementlari va ular o'rtasidagi munosabatlarning batafsilroq diagrammasi (tizim arxitekturasi) 3-rasmda xaritada ko'rsatilgan. Tizim asosiy tekshiruvlarga (MainControl) keladigan so'rov bilan boshlanadi. Birinchidan, asosiy tekshiruvlar ShieldModel komponenti yordamida xavfsizlikni ta'minlaydi, bu esa o'z navbatida turli ob'ektidan foydalanadi. Agar Shield Model so'rovni xavfsiz deb hisoblasa, boshqaruv so'ralayotgan vazifa turiga qarab maxsus tekshiruvlarga o'tkaziladi. Tizimda 7 ta maxsus tekshiruvlar mavjud: statik sahifalarni ko'rsatish uchun Single Page Control, qidiruv so'rovlarini qayta ishlash uchun Search Control, kontekstlarni kengaytirish uchun Context Control, boshqarish uchun Single Page Edit Control statik sahifalar, tizim statistikasini ko'rish uchun Statistics Control, korpus ma'lumotlarini boshqarish uchun Data Management Control, xavfsizlik sozlamalarini boshqarish uchun Security Control. Birinchi uchtasi abstraktdan foydalanadi sahifa boshqaruvchisi Page Control va har qanday foydalanuvchi uchun mavjud. Page Control umumiy foydalanish imkoniyatiga ega sahifalar uchun asosiy funksiyalarni birlashtiradi. Qolgan boshqaruvchilar boshqaruv uchun ishlatiladi va mavhum boshqaruv sahifasi boshqaruvchisi Admin Controldan foydalanadi. Bular tekshiruvlar faqat boshqaruv huquqiga ega foydalanuvchilar (administratorlar va muharrirlar) uchun mavjud. Admin Control boshqaruv sahifalari uchun asosiy funksiyalarni birlashtiradi va Page Control funksiyalarini meros qilib oladi. Page Control va Admin Control foydalanuvchi so'rovlarini tezda tekshirish uchun Request Control yordamchi boshqaruvchisidan foydalanadi. Ma'lumotlarni tekshirish va filtrlashdan so'ng, tizim boshqaruvni mos keladigan modelga o'tkazadi.
2-rasm
3-rasm
Single Page Model, Searc Model, Query Model, ContextModel, Single Page Edit Model, Statistics Model, Data Management Model, SecurityModel. Barcha modellar sahifalarning funksionalligini birlashtirgan noaniq Page Modelni asos qilib oladi.
Oxirgi to'rtta model boshqaruv sahifalarining funksionalligini birlashtirgan Admin Page Model boshqaruv sahifasi modelidan foydalanadi. Barcha modellar JB modelidan foydalanadi, bu esa o'z navbatida keshlash uchun Kesh modelidan foydalanadi. Model harakatni
amalga oshirgandan so'ng, boshqaruv tekshirgichga qaytadi, u yerdan ma'lumotlar View (View) ga uzatiladi. Ikkinchisi HTML hujjatini yaratish yoki so'ralgan chiqish formatiga qarab JSON formatida ma'lumotlarni qaytarish uchun ma'lumotlar va tegishli sahifa shablonlaridan foydalanadi. Ma'lumotlar bazasi va ma'lumotlarni saqlashni tanlash, ma'lumotlar bazasi va ma' lumotlarni saqlashni qidirish va tahlil qilish. Tizimni rivojlantirishning birinchi bosqichida qidiruv tizimida foydalanish uchun DBMS va ma'lumotlar omborini tanlash muhimdir. Mumkin bo'lgan DBMS va ma'lumotlar omborlari real vaqt rejimida katta hajmdagi ma'lumotlarga tez va ishonchli kirishni ta'minlashi va quyidagi mezonlarga javob berishi kerak: ishlash (ma'lumotlar bazasini qidirish tezligi, shu jumladan kamida 100 million qatorli jadval, sekundiga 1 ta so'rov); masshtablilik (jarayonlarni bir nechta jismoniy mashinalarda taqsimlash bilan tizimning funksionalligiga qo'yiladigan talablarga muvofiqligi); narxi (tahlil bepul va tijorat DBMS va ma'lumotlar omborini o'z ichiga oladi); dasturiy ta'minot bilan muvofiqligi (PHP va Unix-ga o'xshash operatsion tizimlar bilan ishlash qobiliyatini qo'llab-quvvatlash); hujjatlarning mavjudligi (rus, ingliz yoki tatar tillarida to'liq hujjatlar mavjudligi); rivojlanish istiqbollari (loyihani ishlab chiqish dinamikasi, mavjud foydalanuvchilar hamjamiyati, ishlab chiquvchilar rejalari). Ochiq manbalardan olingan ma'lumotlar asosida mezonlarga mos keladigan ma'lumotlar bazasi va ma'lumotlar omborini qidirish va tahlil qilish amalga oshirildi. O'n bitta mumkin bo'lgan DBMS va ma'lumotlar ombori tanlangan:
- Memcached/MemcacheDB (http://memcached.
org/, http://memcachedb.org/);
- Redis (http://redis.io/);
- Tarantool (http://tarantool.org/);
- Aerospike (http://www.aerospike.com/);
- FoundationDB (https://foundationdb.com/);
- Apache HBase (http://hbase.apache.org/);
- Hypertable (http://hypertable.com/);
- Kassandra (http://planetcassandra.org/);
- MariaDB (https://mariadb.org/);
- Sfenks (http://sphinxsearch.com/);
- ElasticSearch (http://www.elasticsearch.org/).
Ro'yxatga olingan tizimlarning har biri uchun teskari indeksning tuzilishi ularning xususiyatlarini hisobga olgan holda ishlab chiqilgan. Ma'lumotlar bazalari va ma'lumotlar omborlarining ishlashini sinovdan o'tkazish. Har bir tizim ishlashni tekshirish uchun virtual mashinaga o'rnatildi. Virtual mashina quyidagi xususiyatlarga ega edi: 4 protsessor yadrosi (har biri 2,7 gigagertsli), 4 GB DDR3 RAM, 20 GB HDD (5400 RPM), almashtirish uchun 1 GB SSD va Debian 7.5 bilan ishlayotgan edi. Har bir saqlash tizimi uchun yozish va o'qish tezligi o'lchandi. Yozib olingan ma'lumotlar (hujjatlarning teskari ko'rsatkichi) lug'atdan tasodifiy tanlangan so'z shakllaridan yaratilgan, morfologik xususiyatlar har bir so'z shakli uchun murakkab tarzda yaratilgan. Mualliflar ma'lumotlarni yaratish, yozish va o'qish, shuningdek, o'lchash uchun maxsus dasturiy ta'minotni ishlab chiqdilar har bir saqlash tizimi uchun ishlash. Ushbu dastur bizga testlarni avtomatlashtirish va har bir tizimda kerakli ma'lumotni ta'minlash imkonini berdi. Ishlash testlari davomida 1-jadvalda ko'rsatilgan natijalar olingan.
Cncicmm imiHCb. c.iumxJxipMtek. Hi cru Me. c.iono<f>o|)vt cek.
Memcached 3283 13,2
MemcachcDB 560.7 7,8
Redis 3792 14
FoundationDB 6922 5,8
Hypertablc 2655 15.8
MySQL (MariaDB) 1031.5 9.9
Redis »MySQL (MariaDB) 551.3 14.1
Sphiax 1368.7 02
KlaslicSearch 3546.7 11,4
Lingvistik korpuslar uchun qidiruv tizimlarining muammolarini hal qilishda taqdim
etilgan yondashuv ishlab chiqilgan tizimdan nafaqat tatar tilidagi matnlarning elektron korpusi
uchun, balki boshqa tillar korpusi uchun ham foydalanishga imkon beradi.
FOYDALANILGAN ADABIYOTLAR
1. Teubert, W. (2004). Units of meaning, parallel corpora, and their implications for language teaching. In Applied Corpus Linguistics (pp. 171-189). Brill.
2. Mukhamedshin, D., Nevzorova, O., & Kirillovich, A. (2020). Using FLOSS for Storing, Processing and Linking Corpus Data. In Open Source Systems: 16th IFIP WG 2.13 International Conference, OSS 2020, Innopolis, Russia, May 12-14, 2020, Proceedings 16 (pp. 177-182). Springer International Publishing.
3. Rysavá, D., Volková, N., Rambousek, A., Hokák, A., & Rychly, P. (2015). Converting the corpus query language to the natural language. Proceedings of recent advances in Slavonic natural language processing, raslan, 43-48.
4. Kilgarriff, A., Baisa, V., Busta, J., Jakubícek, M., Kovár, V., Michelfeit, J., ... & Suchomel, V. (2014). The Sketch Engine: ten years on. Lexicography, 1(1), 7-36.
5. Deacon, J. (2009). Model-view-controller (mvc) architecture. Online][Citado em: 10 de março de 2006.] http://www.jdl. co. uk/briefings/MVC. pdf, 28.
6. Frostick, L., & Reid, I. (1989). Is structure the main control of river drainage and sedimentation in rifts?. Journal of African Earth Sciences (and the Middle East), 8(2-4), 165-182.
7. Keesling, J., Lee, J. A., & Ptacek, R. (2013). Psyllid Shield Model. Horticultura, 19, 15-31.
8. Jadhav, M. A., Sawant, B. R., & Deshmukh, A. (2015). Single page application using angularjs. International Journal of Computer Science and Information Technologies, 6(3), 2876-2879.
9. Minton, S. (2012). Learning search control knowledge: An explanation-based approach (Vol. 61). Springer Science & Business Media.
10. Jaworski, B. J. (1988). Toward a theory of marketing control: environmental context, control types, and consequences. Journal of marketing, 52(3), 23-39.
11. Mesbah, A., & Van Deursen, A. (2007, March). Migrating multi-page web applications to single-page Ajax interfaces. In 11th European Conference on Software Maintenance and Reengineering (CSMR'07) (pp. 181-190). IEEE.
12. Breslow, N. E. (1996). Statistics in epidemiology: the case-control study. Journal of the American Statistical Association, 91(433), 14-28.
13. Schadt, E. E., Linderman, M. D., Sorenson, J., Lee, L., & Nolan, G. P. (2010). Computational solutions to large-scale data management and analysis. Nature reviews genetics, 11(9), 647-657.
14. Adam, N. R., & Worthmann, J. C. (1989). Security-control methods for statistical databases: a comparative study. ACM Computing Surveys (CSUR), 21(4), 515-556.
15. Schilit, B. N., & Duchamp, D. (1991). Adaptive remote paging for mobile computers. Department of Computer Science, Columbia University.
16. Peterson, K. D. (1984). Mechanisms of administrative control over managers in educational organizations. Administrative science quarterly, 573-597.
17. Agarwal, A., Hennessy, J., & Horowitz, M. (1989). An analytical cache model. ACM Transactions on Computer Systems (TOCS), 7(2), 184-215.
18. Lawson, B., Wang, T., & McKenzie, B. (1992). VIEW.
19. Nevzorova, O., Mukhamedshin, D., & Gataullin, R. (2017). Developing corpus management system: architecture of system and database. In Proceedings of the International Conference on Information and Knowledge Engineering (IKE) (pp. 108-112). The Steering Committee of The World Congress in Computer Science, Computer Engineering and Applied Computing (WorldComp).
20. Mardan, A., & Mardan, A. (2014). Redis and Authentication Patterns. Pro Express. js, 171176.
21. Ahmad, K., & Kamal, A. (2017). Hands-On Aerospike. In NoSQL: Database for Storage and Retrieval of Data in Cloud (pp. 311-322). Chapman and Hall/CRC.
22. Loesing, S., Pilman, M., Etter, T., & Kossmann, D. (2015, May). On the design and scalability of distributed shared-data databases. In Proceedings of the 2015 ACM SIGMOD International Conference on Management of Data (pp. 663-676).
23. Cai, L., Huang, S., Chen, L., & Zheng, Y. (2013, June). Performance analysis and testing of hbase based on its architecture. In 2013 IEEE/ACIS 12th International Conference on Computer and Information Science (ICIS) (pp. 353-358). IEEE.
24. Marinov, M., Georgiev, G., & Popova, E. (2018, May). NoSQL approach for sensor data storage and retrieval. In 2018 41st International Convention on Information and Communication Technology, Electronics and Microelectronics (MIPRO) (pp. 1427-1432). IEEE.
25. Chebotko, A., Kashlev, A., & Lu, S. (2015, June). A big data modeling methodology for Apache Cassandra. In 2015 IEEE International Congress on Big Data (pp. 238-245). IEEE.
26. Hédin, F., El Hage, K., & Meuwly, M. Supporting information: A Toolkit to Fit Nonbonded Parameters from and for Condensed Phase Simulations.
27. Nugraha, A. (2014). Indexing Bibliographic Database Content Using MariaDB and Sphinx Search Server. Code4Lib Journal, (25).
28. Gendreau, C., Lecoq, M. E., Shorthouse, D. P., & Brouillet, L. (2013, September). Using ElasticSearch as a fast, flexible, and scalable solution to search occurrence records and checklists. In TDWG 2013 ANNUAL CONFERENCE.