Научная статья на тему 'HADOOP HDFS ORQALI KATTA HAJMLI MA’LUMOTNI TAQSIMLANGAN SAQLASH TIZIMLARIDA SAQLASH'

HADOOP HDFS ORQALI KATTA HAJMLI MA’LUMOTNI TAQSIMLANGAN SAQLASH TIZIMLARIDA SAQLASH Текст научной статьи по специальности «Энергетика и рациональное природопользование»

CC BY
125
32
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
Big Data / Hadoop HDFS / Hadoop MapReduce / taqsimlangan saqlash tizimi

Аннотация научной статьи по энергетике и рациональному природопользованию, автор научной работы — Quzibayev Xudayshukur Shavkat Ogli, O‘Razmatov Tohir Quronbayevich, Bekimmetova Durdona Ikromjon Qizi, Egamov Zafarbek Raximboy Ogli

Ushbu maqolada biz katta hajmli ma’lumot sifatida qarash mumkin bo’lgan tarixiy asarni Hadoop HDFS orqali taqsimlangan saqlash tizimlarida saqlash jarayonini ko’rib o’tdik. Buning uchun katta hajmdagi ma’lumot sifatida o’zbek adibi Abdulla Qodiriyning “O’tkan kunlar” asarini oldik.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «HADOOP HDFS ORQALI KATTA HAJMLI MA’LUMOTNI TAQSIMLANGAN SAQLASH TIZIMLARIDA SAQLASH»

INTERNATIONAL SCIENTIFIC AND TECHNICAL CONFERENCE "DIGITAL TECHNOLOGIES: PROBLEMS AND SOLUTIONS OF PRACTICAL IMPLEMENTATION IN THE SPHERES" APRIL 27-28, 2023

HADOOP HDFS ORQALI KATTA HAJMLI MA'LUMOTNI TAQSIMLANGAN

SAQLASH TIZIMLARIDA SAQLASH

1Quzibayev Xudayshukur Shavkat o'g'li, 2O'razmatov Tohir Quronbayevich, 3Bekimmetova Durdona Ikromjon qizi, 4Egamov Zafarbek Raximboy o'g'li

1Muhammad Al Xorazmiy nomidagi Toshkent Axborot Texnologiyalari Universiteti doktoranti

2Muhammad Al Xorazmiy nomidagi Toshkent Axborot Texnologiyalari Universiteti Urganch

filiali, katta o'qituvchi

3Muhammad Al Xorazmiy nomidagi Toshkent Axborot Texnologiyalari Universiteti Urganch

filiali, talaba

4Muhammad Al Xorazmiy nomidagi Toshkent Axborot Texnologiyalari Universiteti Urganch

filiali, stajyor o'qituvchi https://doi.org/10.5281/zenodo.7856340

Annotatsiya. Ushbu maqolada biz katta hajmli ma'lumot sifatida qarash mumkin bo'lgan tarixiy asarni Hadoop HDFS orqali taqsimlangan saqlash tizimlarida saqlash jarayonini ko'rib o'tdik. Buning uchun katta hajmdagi ma'lumot sifatida o'zbek adibi Abdulla Qodiriyning "O 'tkan kunlar " asarini oldik.

Kalit so'zlar: Big Data, Hadoop HDFS, Hadoop MapReduce, taqsimlangan saqlash tizimi

Kirish Dunyoda raqamlangan ma'lumotlar hajmi shiddat bilan o'sib bormoqda. Bu o'z navbatida raqamli ma'lumotlarni saqlab qo'yich, ularni saralash, qayta ishlash va ular asosida xulosalar chiqarish kabi muommolarni yuzaga chiqaradi. Bu muommolarni o'rganish va yechimlar taklif qilish uchun axborot texnologiyalari sohasida Big data, Data science (malumotlar ilmi), Data mining (ma'lumotlarni intelektual tahlili), Machine learning (mashinali o'qitish), Deep learning (chuqur o'qitish), Sun'iy neyron tarmog'i kabi fan tarmoqlari vujudga keldi. Biz ushbu maqolada tadqiq qilgan qilgan muommo BigData (katta hajmli ma'lumotlar) sohasiga tegishli. Hozirgi kundagi ma'lumotlarning keskin oshib borish fonida, ularni saqlash va tezkor qayta ishlash masalasi mavuning dolzarbligini ko'rsatadi.

Tadqiqot obyekti sifatida o'zbek adibi Abdulla Qodiriyning "O'tkan kunlar" asarini katta hajmli ma'lumot sifatida belgilab oldik. Tadqiqot predmeti sifatida esa katta hajmli ma'lumotlarni saqlash uchun ishlatiladigan Apache Hadoop HDFS hamda ma'lumotlarni parallel qayta ishlovchi Hadoop MapReduce dasturlarini belgilab oldik.

Izlanishlarimizning vazifalari sifatida quyidagilarni belgilab oldik:

• Katta hajmli ma'lumotni taqsimlangan fayl tizimlarida saqlash

• Katta hajmli ma'lumotni parallel hisoblash yordamida qayta ishlab natija olish

• Olingan natijalarni solishtirib xulosalar chiqarish

Obyekt sifatida belgilab olganimiz Abdulla Qodiriyning "O'tkan kunlar" asarining elektron shakldagi talqinini topamiz. 220 betdan iborat elektron matn shakldagi asarni .txt formatiga o'tkazib olamiz.

Asosiy qism Bugungi kunda har kuni 2,5 (1018) kvintillion bayt ma'lumot yaratilmoqda va bu ko'rsatgich 2022 yilda har bir inson uchun kuniga 2,1 MB ma'lumot yaratilganligini bildiradi.[1] Bu turdagi katta hajmli ma'lumotlar bilan ishlashda yangidan -yangi algoritm va texnologiyalar ishlab chiqishni talab qilmoqda. 2018 yilda jami to'plangan ma'lumot miqdori 912 eksabaytni tashkil etdi, deb xabar beradi TrendFocus[2]. 2013-2015 yillarda oralig'ida to'plangan

INTERNATIONAL SCIENTIFIC AND TECHNICAL CONFERENCE "DIGITAL TECHNOLOGIES: PROBLEMS AND SOLUTIONS OF PRACTICAL IMPLEMENTATION IN THE SPHERES" APRIL 27-28, 2023

ma'lumotlar hajmi shundan oldingi butun insoniyatning o'tmish tarixiga qaraganda ko'proq ma'lumotlar yig'ilganini takidlashgan. 2025 yilga kelib, barcha ma'lumotlar 163 zettabayt (ZB) ga teng bo'lishi mumkinligi ta'kidlangan.

Katta ma'lumotlar - bu xar xil turdagi va avtonom ma'lumot manbalaridan kelib chiqadigan keng miqyosli, hajmli va ko'p formatli ma'lumot oqimlarining yig'indisidir[2,3]. Katta hajmli ma'lumotlarning asosiy xarakteristikasi bo'lib, u keng miqyosli ma'lumotlar markazlarida va saqlash zonalari tarmoqlarida saqlash joylarini egallash bilan tavsiflanadi. Katta ma'lumotlarning katta o'lchamlari nafaqat ma'lumotlarning turli xil bo'lishiga olib keladi, balki natijada ma'lumotlar to'plamida xilma-xil o'lchovlar paydo bo'ladi[4]. Katta miqdordagi ma'lumotlarni tahlil qilish inson his etish imkoniyatidan tashqarida bo'lgan qonuniyatlarni aniqlashda yordam beradi[5]. Big data atamasi ilk bora Nature jurnalining 2008 yildagi sonida duch kelish mumkin. Jurnal muharriri Klifford Linch dunyodagi ma'lumotlar hajmining intensiv ortib borishiga bag'ishlangan maqolasida bu haqda to'xtalgan. Mutaxassislarning fikricha, kuniga 100 gb dan ko'p ma'lumot tushadigan oqimlarga big data deb aytish mumkin. Katta hajmli ma'lumotlarni tushintirishda "Meta Group"(eski Facebook) kompniyasi tomonidan ishlab chiqilgan xususiyatlar muhimdir.

1 rasm. Katta hajmli ma'lumot xususiyatlari.

■ Volume - ma'lumotlar hajmining kattaligi [3]. Ma'lumotlarning hajmini kattaligi, ahamiyati va uni katta ma'lumotlar deb hisoblash mumkinmi yoki yo'qligini birdiradi;

■ Variety - bu ma'lumotlarning turi va xususiyatini ifodalab, turli xil ma'lumotlarni bir vaqtning o'zida qayta ishlash imkoniyatidir.

■ Velocity - ma'lumotlar o'sish tezligi va natijaga erishish uchun ma'lumotlarni qayta ishlash vaqtining real vaqtga yaqinligi.

■ Value - Katta ma'lumotlar to'plamlarini qayta ishlash va tahlil qilish orqali erishish mumkin bo'lgan ma'lumotlarning ahamiyati.

■ Veracity - bu katta ma'lumotlar uchun kengaytirilgan ta'rif bo'lib, bu ma'lumotlar sifati va ma'lumotlar qiymatini anglatadi.

Ushbu xususiyatlardan kelib chiqib biz tanlagan obyekt Abdulla Qodiriyning "O'tkan kunlar" asarini katta hajmli ma'lumot deb atash mumkin. Ushbu asar 220 sahifadan iborat bo'lib, unda sal kam 100 000 so'zdan foydalanilgan. Belgilar soni esa 574 000 dan oshadi.

Hadoop modullarini buyruqlar satri orqali ishga tushirib olamiz. Buning uchun buyruqlar satriga start-all buyrug'ini kiritamiz. Bu buyruqdan so'ng Hadoopning quyidagi 4 ta moduli ishga tushadi:

INTERNATIONAL SCIENTIFIC AND TECHNICAL CONFERENCE "DIGITAL TECHNOLOGIES: PROBLEMS AND SOLUTIONS OF PRACTICAL IMPLEMENTATION IN THE SPHERES" APRIL 27-28, 2023

• Hadoop datanode

• Hadoop namenode

• Hadoop yarn nodemanager

• Hadoop yarn resourcemanager

Keyingi qadamda aynan shu buyruqlar satri yordamida HDFS da yaki jild yaratib olamiz. Buning uchun buyruqlar satriga hdfs dfs -mkdir /test buyrug'ini kiritamiz. Yangi jilda ixtiyoriy nomni berishimiz mumkin. Keyin esa katta hajmli ma'lumot sifatida belgilab olgan .txt formatidagi faylimizni HDFS da yaratgan yangi jildimizga ko'chirib o'tkazamiz. Buning uchun buyruqlar satriga hdfs dfs -put/home/codegyani/data.txt/test buyrug'ini kiritamiz.

[S3 Administrator Command Prompt

icrosoft Windows [Version 19.9.22521.1265] (c) Microsoft Corporation. All rights reserved.

C:\Windows\Svstem32>start-all

This script is Deprecated. Instead use start-dfs.cmd and start-yarn.cmd starting yarn daemons

C:\Windows\Svstem32>hdfs dfs -mkdir /test :\Windows\Svstem32>hdfs dfs -put /home/codeevani/data.txt /test

2 rasm. Hadoop modullarining ishlash jarayoni

XULOSA

Katta hajmli ma'lumotni taqsimlangan saqlash tizimlarida saqlash mavzusiga bag'ishlangan ushbu maqolani yozish jarayonida biz quyidagilarni amalga oshirdik:

• Katta hajmli ma'lumotlar va ularni qayta ishlashga doir adabiyotlarni tahlil qildik

• Apache Hadoop dasturini kompyuterimizga o'rnatdik va sozlab oldik

• Katta hajmli ma'lumotni topib, uni o'zimizga zarur formatga o'tkazdik

• Katta hajmli ma'lumotni taqsimlangan fayl tizimlarida saqlab oldik

REFERENCES

1. Onay, Ceylan; Öztürk, Elif "A review of credit scoring research in the age of Big Data". Journal of Financial Regulation and Compliance. . 2018 - C.382-405.

2. Muhammad Habib ur Rehman, Chee Sun Liew, Assad Abbas Prem Prakash Jayaraman, Teh Ying Wah, Samee U. Khan. Big Data Reduction Methods: A Survey. Data Sci. Eng. (2016)

3. "Measuring the Business Value of Big Data | IBM Big Data & Analytics Hub". Www.ibmbigdatahub.com. 2021.

4. . Kitchin, Rob; McArdle, Gavin. "What makes Big Data, Big Data? Exploring the characteristics of 26 datasets".2016 Big Data & Society. 3 (1):

5. Алексеева И.Ю. Искусственный интеллект и рефлексия над знаниями. // —Философия науки и техники!: журнал 1991 №9, с. 44-53.

6. Urazmatov, T.Q.,Nurmetova, B.B.,Kuzibayev, X.S. Analysis of big data processing technologies. IOP Conference Series: Materials Science and Engineering, 2020, 862(4), 042006

i Надоели баннеры? Вы всегда можете отключить рекламу.