INTERNATIONAL SCIENTIFIC AND TECHNICAL CONFERENCE "DIGITAL TECHNOLOGIES: PROBLEMS AND SOLUTIONS OF PRACTICAL IMPLEMENTATION IN THE SPHERES" APRIL 27-28, 2023
HADOOP MAPREDUCE ORQALI KATTA HAJMLI MA'LUMOTNI PARALLEL
QAYTA ISHLASH
1Quzibayev Xudayshukur Shavkat o'g'li, 2O'razmatov Tohir Quronbayevich, 3Davletboyev Sardorbek Zokirjon o'g'li, 4Ishmetov Bahrom Yangibaevich
1Muhammad Al Xorazmiy nomidagi Toshkent Axborot Texnologiyalari Universiteti doktoranti 2Muhammad Al Xorazmiy nomidagi Toshkent Axborot Texnologiyalari Universiteti Urganch
filiali, katta o'qituvchi
3Muhammad Al Xorazmiy nomidagi Toshkent Axborot Texnologiyalari Universiteti Urganch
filiali, stajyor o'qituvchi 4Muhammad Al Xorazmiy nomidagi Toshkent Axborot Texnologiyalari Universiteti Urganch
filiali, stajyor o'qituvchi https://doi.org/10.5281/zenodo.7856350
Annotatsiya. Ushbu maqolada biz taqsimlangan saqlash tizimi sifatida Hadoop HDFS(Hadoop Distributed File System) tizimidan, parellel hisoblashni amalga oshirishda esa Hadoop MapReduce komponentidan foydalanilgan. Bundan tashqari ushbu maqolada, aynan shu katta hajmli ma'lumotlarni ananaviy hisoblashlaryordamida qayta ishlashdan olingan natijalar ham keltirilgan. Ananviy hisoblashlar va parallel hisoblashlar yordamida olingan natijalarga asoslangan holda xulosalar qilingan.
Kalit so'zlar: so'zlar chastotasi, Big Data, Hadoop MapReduce, parallel hisoblash
Kirish Tadqiqot obyekti sifatida o'zbek adibi Abdulla Qodiriyning "O'tkan kunlar" asarini katta hajmli ma'lumot sifatida belgilab oldik. Tadqiqot predmeti sifatida esa katta hajmli ma'lumotlarni saqlash uchun ishlatiladigan Apache Hadoop HDFS hamda ma'lumotlarni parallel qayta ishlovchi Hadoop MapReduce dasturlarini belgilab oldik. Izlanishlarimizning maqsadi sifatida katta hajmli ma'lumotlarni ananaviy hisoblash usullari orqali qayta ishlab bo'lmasligini, parallel hisoblashlar orqali qayta ishlash samarali va tezkor ekanligini isbotlash.
Izlanishlarimizning vazifalari sifatida quyidagilarni belgilab oldik:
• Katta hajmli ma'lumotni taqsimlangan fayl tizimlarida saqlash
• Katta hajmli ma'lumotni ananaviy usulda qayta ishlab natija olish
• Katta hajmli ma'lumotni parallel hisoblash yordamida qayta ishlab natija olish
• Olingan natijalarni solishtirib xulosalar chiqarish
Tanlangan obyektimizni ananaviy usulda qayta ishlaymiz. Olingan natijani va qayta ishlash vaqtini qayt qilib qo'yamiz. Endi ayni shu katta hajmli ma'lumotimizni Hadoop MapReduce modeli yordamida parallel qayta ishlaymiz. Olingan natijalarni va qayta ishlash uchun sarflangan vaqtni yana qayt qilib qo'yamiz. Qayd qilingan natijalarni va qayta ishlar uchun sarflangan vaqtlarni solishtirib ko'rganimizda yaqqol farqni kuzatdik. Olingan natijalarni solishtirish natijasida tegishli xulosalar qildik.
Asosiy qism Big Data xususiyatlaridan kelib chiqib biz tanlagan obyekt Abdulla Qodiriyning "O'tkan kunlar" asarini katta hajmli ma'lumot deb atash mumkin. Ushbu asar 220 sahifadan iborat bo'lib, unda sal kam 100 000 so'zdan foydalanilgan. Belgilar soni esa 574 000 dan oshadi. Biz yechmoqchi bo'lgan masala esa ushbu asardagi so'zlarning chastotasini hisoblashdan iborat. Boshqacha aytganda, ushbu ulkan asarda har bir so'z nechta marta qo'llanganini xiosblash zarur bo'ladi.
INTERNATIONAL SCIENTIFIC AND TECHNICAL CONFERENCE "DIGITAL TECHNOLOGIES: PROBLEMS AND SOLUTIONS OF PRACTICAL IMPLEMENTATION IN THE SPHERES" APRIL 27-28, 2023
Bu masalani yechishda biz ikki hil metoddan foydalandik:
1. Java Core ga asoslangan dastur yordamida ananviy hisoblash
2. Hadoop MapReduce ga asoslangan parallel hisoblash
Endi bu ikki metod haqida to'xtalib o'tamiz. Java Core ga asoslangan dasturimiz Eclipse IDE muhitida yozilgan. Bu dastur bitta WordCount deb nomlangan klass dan tuzilgan bo'lib, java.io.FileInputStream kutubxonasi yordamida katta hajmli ma'lumotni fayldan o'qib oladi. Bundan tashqari dasturda java.util.ArrayList, java.util.Iterator, java.util.Scanner kabi kutubxonalardan foydalanilgan. Dasturning asosiy bajaruvchi tanasi quyidagicha
Dastur sanalgan so'zlarni java.io.FileOutputStream kutubxonasi yordamida faylga yozib qo'yadi. Dastur hisoblashlarni ananviy tarzda parallel bo'lmagan usulda bajaradi. Ya'ni dastur kodini kompilyatsiya qiladi. Keyingi qadamda uni JRE (Java ishlash muhiti) ga uzatadi. JRE esa o'z navbatida CPU(markaziy protsessor)ga uzatadi va CPU da hisobl ash bajarilib, shu ketma ketlikda orqaga qaytadi. Java Core ga asoslangan birinchi metodimiz haqida chuqur to'xtalib o'tirmayman, ikkinchi metodimizga chuqurroq to'xtalaman.
Ikkinchi metodimiz katta hajmli ma'lumotni taqsimlangan saqlash tizimiga saqlab, u ni parallel hisoblash yordamida qayta ishlashga asoslanadi. Biz buning uchun Apache litsenziyasi asosida ishlovchi Hadoop HDFS va Hadoop MapReduce dan foydalandik. Apache Hadoop - bu katta hajmdagi ma'lumotlar va hisoblash bilan bog'liq muammolarni hal qilish uchun ko'plab kompyuterlar tarmog'idan foydalanishni osonlashtiradigan ochiq manbali dasturiy ta'minot vositalari to'plami. U MapReduce dasturlash modelidan foydalangan holda katta ma'lumotlarni taqsimlangan saqlash va qayta ishlash uchun dasturiy ta'minot tizimini taqdim etadi. Apache Hadoop yadrosi Hadoop Distributed File System (HDFS) deb nomlanuvchi saqlash qismi va MapReduce dasturlash modeli bo'lgan ishlov berish qismidan iborat. Hadoop fayllarni katta bloklarga ajratadi va ularni klasterdagi tugunlar bo'ylab tarqatadi. Keyin ma'lumotlarni parallel ravishda qayta ishlash uchun paketlangan kodni tugunlarga o'tkazadi. Asosiy Apache Hadoop fremvorki quyidagi modullardan iborat:
• Hadoop Common - boshqa Hadoop modullari uchun zarur bo'lgan kutubxonalar va yordamchi dasturlarni o'z ichiga oladi;
• Hadoop Distributed File System (HDFS) - klaster bo'ylab juda yuqori agregat o'tkazish qobiliyatini ta'minlovchi tovar mashinalarida ma'lumotlarni saqlaydigan taqsimlangan fayl tizimi;
• Hadoop YARN - (2012-yilda taqdim etilgan) klasterlardagi hisoblash resurslarini boshqarish va ulardan foydalanuvchilarning ilovalarini rejalashtirishda foydalanish uchun mas'ul platforma;
• Hadoop MapReduce - keng ko'lamli ma'lumotlarni qayta ishlash uchun MapReduce dasturlash modelini amalga oshirish.
INTERNATIONAL SCIENTIFIC AND TECHNICAL CONFERENCE "DIGITAL TECHNOLOGIES: PROBLEMS AND SOLUTIONS OF PRACTICAL IMPLEMENTATION IN THE SPHERES" APRIL 27-28, 2023
Hadoop Ozone - (2020 yilda taqdim etilgan) Hadoop uchun ob'ektlar do'koni
1 rasm. Hadoopning modullari Natijalar va muhokama Hadoopning bu 4 ta modulini kompyuterda sozlab olganimizdan keyin, asardagi so'zlarni qayta ishlovchi job(topshiriq) yaratamiz. Hadoop uchun jobni Java, Python, C++, Scala kabi dasturlash tillarida yaratish mumkin. Hadoopni kompyuterimizga sozlab olib, o'z maqsadimizga mos jobni yaratib olamiz. O'tkazilgan tajribalar najilariga to'xtaladigan bo'lsak, natijalar absolyut bir hil chiqqanligini ko'rishimiz mumkin. Ya'ni ikkala metod bo'yicha sanalgan so'zlarning soni 100% bir hil ekanligin ko'rdik. Olingan natijani quyidagi diagrammada ko'rsatilgan.
So'zlarning chastotaviy tahlili
1800 1600 1400 1200 1000 800 600 400 200
Il 11111 in
* f «r ^
/ ^ / »
.er ^ J»
^ ^
ö*
1-diagramma. Katta hajmli ma'lumotdagi so'zlarning chastotaviy tahlili So'zlarning chastotaviy tahlilidan tashqari katta hajmli ma'lumotni qayta ishlash uchun sarflangan vaqt ham biz katt ahamiyatga ega. Chunki asosiy maqsadimiz qayta ishlash jarayoni tezlashtirishdan iborat. Quyidagi rasmda esa Java Corega asoslangan dasturda, biz tanlagan katta hajmli ma'lumotni qayta ishlash uchun sarflangan vaqtni ko'rishimiz mumkin.
*_ Problems ® Javadoc ^Declaration SConsole x #Term <terminated> Hadoop 2 [Java Application] C:\Users\fai94\.p2^
2 rasm. Java Corega asoslangan qayta ishlash uchun sarflangan vaqt Quyidagi rasmda esa Hadoop yordamida parallel hisoblashlarga asoslangan qayta ishlash uchun sarflangan vaqt va boshqa resurslarni ko'rishimiz mumkin.
0
INTERNATIONAL SCIENTIFIC AND TECHNICAL CONFERENCE "DIGITAL TECHNOLOGIES: PROBLEMS AND SOLUTIONS OF PRACTICAL IMPLEMENTATION IN THE SPHERES" APRIL 27-28, 2023
rrfcers
Launched map tasks=l Launched reduce tasks=l Data-local map tasks=l
Total time spent by all maps in occupied slots (ms'l=8B43 Total time spent bv all reduces in occupied slots (ms)=5405 Total time spent by all map tasks (ms)=8543 Total time spent by all reduce tasks (ms)=5405 Total vcore-milliseconds taken by all map tasks=8543 Total vcore-milliseconds taken by all reduce tasks=5495 Total megabyte-milliseconds taken by all map tasks=8748032 Total megabyte-milliseconds taken by all reduce tasks=5534729
3 rasm. Hadoop orqali parallel qayta ishlash uchun sarflangan vaqt.
XULOSA
Katta hajmli ma'lumotni parallel hisoblashlar yordamida qayta ishlash mavzusiga bag'ishlangan ushbu maqolani yozish jarayonida biz quyidagilarni amalga oshirdik:
• Katta hajmli ma'lumotni Java Core asoslangan ananaviy usulda qayta ishlab, natija
oldik
• Katta hajmli ma'lumotni parallel hisoblash yordamida qayta ishlab, natijalar oldik
• Olingan natijalarni qiyosiy solishtirish asosida xulosalar chiqardik.
Ushbu o'tkazilgan tajribaning natijalariga asoslanib quyidagilarni xulosa qilish mumkin:
• Katta hajmli ma'lumotni Java Core asoslangan ananaviy usulda qayta ishlash mumkin, lekin juda ko'p hisoblashlarni va juda ko'p vaqtni talab qiladi;
• Katta hajmli ma'lumotni Hadoop yordamida parallel qayt ishlash mumkin, bu juda samarali va bu hisoblashlar kam vaqt talab qiladi;
• Ayni bir hil topshiriqni Java Core asoslangan ananaviy usuldagi qayta ishlash va Hadoop yordamida parallel qayt ishlashdan bir hil natida olish mumkin, lekin hisoblash uchun sarflangan vaqt bo'yicha katta farq mavjud;
• Hadoop yordamida parallel qayt ishlash uchun sarflangan umumiy vaqt 13 948 ms;
• Java Core asoslangan ananaviy usuldagi qayta ishlash uchun sarflangan vaqt 177 769 ms;
• Hisoblash vaqti bo'yicha Hadoopga asoslangan parallel hisoblash ananviy hisolashdan taxminan 13 marta tezroq ishlaganini ko'rishimiz mumkin.
REFERENCES
1. Onay, Ceylan; Öztürk, Elif "A review of credit scoring research in the age of Big Data". Journal of Financial Regulation and Compliance. . 2018 - C.382-405.
2. Muhammad Habib ur Rehman, Chee Sun Liew, Assad Abbas Prem Prakash Jayaraman, Teh Ying Wah, Samee U. Khan. Big Data Reduction Methods: A Survey. Data Sci. Eng. (2016)
3. "Measuring the Business Value of Big Data | IBM Big Data & Analytics Hub". Www.ibmbigdatahub.com. 2021.
4. . Kitchin, Rob; McArdle, Gavin. "What makes Big Data, Big Data? Exploring the characteristics of 26 datasets".2016 Big Data & Society. 3 (1):
5. Алексеева И.Ю. Искусственный интеллект и рефлексия над знаниями. // —Философия науки и техники!: журнал 1991 №9, с. 44-53.
6. Urazmatov, T.Q.,Nurmetova, B.B.,Kuzibayev, X.S. Analysis of big data processing technologies. IOP Conference Series: Materials Science and Engineering, 2020, 862(4), 042006
INTERNATIONAL SCIENTIFIC AND TECHNICAL CONFERENCE "DIGITAL TECHNOLOGIES: PROBLEMS AND SOLUTIONS OF PRACTICAL IMPLEMENTATION IN THE SPHERES" APRIL 27-28, 2023
7. Urazmatov, T.Q.,Sh Kuzibayev, X. MapReduce and Apache spark: Technology analysis, advantages and disadvantages Journal of Physics: Conference Seriesthis link is disabled, 2022, 2373(5), 052008
8. Ilhombekovich, S.B.,Kuzibayev K.S.,Xakimovna, A.G. Calculation of Synaptic Weights in Neuroexpert Systems International Conference on Information Science and Communications Technologies: Applications, Trends and Opportunities, ICISCT 2021, 2021