Научная статья на тему 'BIG DATA TIPIDAGI MA’LUMOTLARNI TARQATILGAN FAYL SISTEMALARI ORQALI SAQLASH VA QAYTA ISHLASHNING AMALIY JIHATLARI'

BIG DATA TIPIDAGI MA’LUMOTLARNI TARQATILGAN FAYL SISTEMALARI ORQALI SAQLASH VA QAYTA ISHLASHNING AMALIY JIHATLARI Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
164
25
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
Big data / ma’lumotlarni saqlash va qayta ishlash tizimi / data lake / fayl ma’lumotlari.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Zayniddinov Olimjon Odil Ogli, Axatov Akmal Rustamovich

Mazkur maqolada Big Data tipidagi ma’lumotlarni tarqatilgan fayl sistemalari orqali saqlash jarayonlarini ochib berilgan. Qolaversa, ma’lumotlarni fayl sistemalari orqali qayta ishlashning amaliy jihatlari keng ochib berilgan.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «BIG DATA TIPIDAGI MA’LUMOTLARNI TARQATILGAN FAYL SISTEMALARI ORQALI SAQLASH VA QAYTA ISHLASHNING AMALIY JIHATLARI»

BIG DATA TIPIDAGI MA'LUMOTLARNI TARQATILGAN FAYL SISTEMALARI ORQALI SAQLASH VA QAYTA ISHLASHNING AMALIY

JIHATLARI

Zayniddinov Olimjon Odil o'g'li

Sharof Rashidov nomidagi Samarqand davlat universiteti magistri Tel: +998997787930 e-mail: [email protected] Axatov Akmal Rustamovich Sharof Rashidov nomidagi Samarqand davlat universiteti professori, t.f.d. [email protected]

Annotatsiya: Mazkur maqolada Big Data tipidagi ma'lumotlarni tarqatilgan fayl sistemalari orqali saqlash jarayonlarini ochib berilgan. Qolaversa, ma'lumotlarni fayl sistemalari orqali qayta ishlashning amaliy jihatlari keng ochib berilgan.

Kalit so'zlar: Big data, ma'lumotlarni saqlash va qayta ishlash tizimi, data lake, fayl ma'lumotlari.

Bugungi kunda zamonamizni katta ma'lumotlarsiz (big data) tasavvur qilish qiyin. Zero, bugungi kunda ma'lumotlar shunchalik ko'pki, uni tizimlashtirish saqlash va qayta ishlash muammolari ko'plab uchrab turmoqda. Ma'lumotlarni saqlashda asosiy muammo fayl sistemalari orqali ma'lumotlarni tizimlashtirish hisoblanadi. Shu sababdan ham mazkur maqolada big data ma'lumotlarini saqlash va qayta ishlash imkoniyatlarining amaliy jihatlari keng miqyosda ochib berilgan. Shu o'rinda big data ma'lumotlar va unga xos ma'lumotlar bazalari nima? Uning amaliy jihatlari nimalardan iborat? ekanligiga alohida e'tibor qaratiladi.

Big data (katta ma 'lumotlar) - juda katta hajmdagi bir jinsli bo'lmagan va tez tushadigan raqamli ma'lumotlar bo'lib, ularni odatiy usullar bilan qayta ishlab bo'lmaydi. Ba'zi hollarda, katta ma'lumotlar tushunchasi bilan birga shu ma'lumotlarni qayta ishlash ham tushuniladi. Asosan, analiz ob'yekti katta ma'lumotlar deb ataladi [1].

Big data atamasi 2008-yilda dunyoga kelgan. Nature jurnali muharriri Klifford Linch dunyo ma'lumotlar hajmining juda tez sur'atda o'sishiga bag'ishlangan maxsus sonida big data atamasini qo'llagan. Biroq, katta ma'lumotlar avval ham bo'lgan. Mutaxassislarning fikricha, kuniga 100 gb dan ko'p ma'lumot tushadigan oqimlarga big data deb aytilar ekan.

Katta ma'lumotlarni analiz qilish, inson his etish imkoniyatidan tashqarida bo'lgan qonuniylatlarni aniqlashda yordam beradi. Bu esa kundalik hayotimizdagi barcha sohalar, hukumatni boshqarish, tibbiyot, telekommunikatsiya, moliya, transport, ishlab chiqarish va boshqa sohalarni yanada yaxshilash, ularning

imkoniyatlarini oshirish, muommolarga muqobil yechimlar izlab topish imkonini yaratadi.

Data lake (ma 'lumotlar ko 'li) - qayta ishlanmagan katta ma'lumotlar ombori. "Ko'l" har xil manbalardan kelgan, har xil formatda bo'lgan ma'lumotlarni saqlaydi. Bu esa odatiy relatsion ma'lumotlar omborida ma'lumotlarni aniq struktura asosida saqlashdan ko'ra arzonroqqa tushadi. Ma'lumotlar ko'li, ma'lumotlarni boshlang'ich holatida analiz qilish imkonini beradi. Bundan tashqari, "koT'lardan bir vaqtni o'zida bir nechta ishchilar foydalanishlari mumkin.

Data science(ma 'lumotlar haqidagi fan) - analiz muommolarini , ma'lumotlarni qayta ishlash va ularni raqamli ko'rinishda taqdim etishni o'rganadigan fan.

Bu atama dunyoga kelgan vaqt 1974-yil hisoblanadi. O'sha yili Daniyalik informatik, Peter Naur "A Basic Principle of Data Science" nomli kitobini chop ettirgan. 2010-yillar boshida katta ma'lumotlarni tarqalishi natijasida bu yo'nalish juda foydali va kelajagi bor biznesga aylandi. Va o'shandi katta ma'lumotlar bilan ishlaydigan mutaxassislarga talab juda oshib ketdi.

Data science tushunchasiga ma'lumotlar omborini loyihalash va raqamlangan ma'lumotlarni qayta ishlashning barcha metodlari kiradi. Ko'plab mutaxassislar fikricha, aynan data science big dataning biznes nuqtai nazaridan hozirgi zamonoviy o'rindoshi hisoblanadi.

Data mining(ma'lumotlarni topish) - biron qonuniyatni topish maqsadida ma'lumotlarni intellektual analiz qilishga aytiladi. Isroillik matematik Grigoriy Pyatetskiy-Shapiro 1989-yilda bu atamani fanga kiritgan.

Texnologiyalar, avvalari noma'lum va foydali bo'lgan qayta ishlanmagan(hom) ma'lumotlarni topish jarayoniga data mining(ma'lumotlarni topish) deyiladi. Data mining metodlari ma'lumotlar ombori, statistika va sun'iy intellekt tutashgan nuqtada joylashadi.

Big Data ma'lumotlarining asosiy tamoyillari:

- Landshaft kengaytirilishi - ma'lumotlar massivlari juda katta bo'lishi mumkin va bu katta ma'lumotlarni qayta ishlash tizimining dinamik ravishda kengayib borishi kerakligini anglatadi.

- Xatolarga bardoshlik - uskunaning ba'zi elementlari ishdan chiqsa ham, butun tizim ishlashi kerak.

- ma'lumotlarning joylashuvi. Katta taqsimlangan tizimlarda ma'lumotlar odatda juda ko'p sonli mashinalarda tarqatiladi. Ammo, iloji boricha va resurslarni tejash maqsadida ma'lumotlar ko'pincha o'sha serverda saqlanadi.

Uchala tamoyilning barqaror ishlashi va shunga mos ravishda katta ma'lumotlarni saqlash va qayta ishlashning yuqori samaradorligi uchun, masalan, blockchain kabi yangi katta texnologiyalar kerak.

Ma'lumotlarni saqlab qo'yish uchun, tashqi xotiraning nomlangan qismiga fayl deyiladi. Bunday fayllar fizik fayllar deyiladi.

Mantiqiy fayllar. Fizik fayllar bilan ishlash uchun, programmalashtirish tillarida maxsus strukturalashgan, toifalangan fayllar kiritilgan. Bunday fayllar mantiqiy (logicheskiy) fayllar deyiladi.

Mantiqiy fayllar, hech qanday fizik xotirani band qilmasdan ma'lumotlarning mantiqiy modelini o'zida saqlaydi.

Fizik va mantiqiy fayllar bir - biri bilan fopen funksiyasi orqali bog'lanadi. Fayl bir nechta elementdan tashkil topgan bo'lganligi uchun, faqat fayl ko'rsatkichi ko'rsatayotgan elementga murojaat qilish mumkin. Fayldan o'qish yoki yozish mumkin bo'lgan o'rinni ko'rsatuvhi elementga fayl ko'rsatkichi deyiladi. Fayldan ma'lumot o'qiganda yoki yozganda fayl ko'rsatkichi avtomat ravishda o'qilgan yoki yozilgan bayt miqdoricha siljiydi. Fayl ko'rsatkichini magnitafon galovkasiga o'xshatish mumkin.

Binar fayl - har xil ob'ektlarni ifodalovchi baytlar ketma - ketligidir. Ob'yektlar faylda qanday ketma - ketlikda joylashganini programmaning o'zi aniqlashi lozim. Fayllar bilan ishlovchi funksiyalardan foydalanish uchun sarlavha faylini

programmaga qo'shish kerak bo'ladi.

Fayldan ma'lumotlarni o'qish yoki yozish uchun ochish fopen funksiyasi orqali amalga oshiriladi.

FILE * fopen ( const char * filename, const char * mode );

filename - o'zgaruvchisi char toifasidagi satr bo'lib, faylning to'liq nomini ko'rsatishi lozim (filename = "D:\c++\misol.txt").

Agar faylning faqat nomi ko'rsatilgan bo'lsa, fayl joriy katalogdan qidiriladi (filename = "misol.txt").

mode - o'zgaruvchisi ham char toifasidagi satr bo'lib, faylni qaysi xolatda ochish lozimligini bildiradi. mode qiymati faylning ochilish xolati faylni yozish uchun ochish. falename o'zgaruvchisida ko'rsatilgan fayl hosil qilinadi va unga ma'lumot yozish mumkin"w" bo'ladi. Agar fayl oldindan bor bo'lsa (ya'ni oldin hosil qilingan bo'lsa), faylning ma'lumotlari o'chiriladi va yangi bo'sh fayl faqat yozish uchun ochiq holda bo'ladi. Fayl o'qish uchun ochiladi. Agar fayl oldindan mavjud bo'lmasa,"r" xatolik sodir bo'ladi. Ya'ni ochilishi lozim bo'lgan fayl oldindan hosil qilingan bo'lishi shart.

Faylga yangi ma'lumotlar qo'shish - kiritish uchun ochiladi."a"Yangi kiritilgan ma'lumotlar fayl oxiriga qo'shiladi. Agar fayl oldindan mavjud bo'lmasa, yangi fayl hosil qilinadi. Yozish va o'qish uchun faylni ochish. Agar fayl oldindan bor bo'lsa (ya'ni oldin hosil qilingan bo'lsa), faylning ma'lumotlari "w+"o'chiriladi va yangi bo'sh fayl yozish va o'qish uchun ochiqholda bo'ladi. "r+"Oldindan mavjud bo'lgan faylni o'qish va yozish uchun ochish. Fayl ma'lumotlarni o'qish va yangi ma'lumot qo'shish uchun "a+" ochiladi. fseek, rewind faylni ochishda xatolik sodir bo'lsa, fopen funksiyasi NULL qiymat qaytaradi.

Ochilgan faylni yopish uchun fclose funksiyasi ishlatiladi. int fclose ( FILE * stream );

Faylni yopishda xato sodir bo'lmasa, fclose funksiyasi nol qiymat qaytaradi. Xato sodir bo'lsa, EOF - fayl oxiri qaytariladi.

Faylga ma'lumot yozish va o'qish size_t fread ( void * ptr, size_t size, size_t n, FILE * stream ); fread funksiyasi, fayldan ptr ko'rsatkichi adresiga size xajmdagi ma'lumotdan n tani o'qishni amalga oshiradi. Agar o'qish muvoffaqiyatli amalga oshsa fread funksiyasi o'qilgan bloklar soni n ni qaytaradi. Aksholda nol qaytariladi size_t fwrite ( const void * ptr, size_t size, size_t n, FILE * stream ); fwrite funksiyasi, faylga ptr ko'rsatkichi adresidan boshlab size xajmdagi ma'lumotdan n tani yozishni amalga oshiradi.

Katta narxga qo'shimcha ravishda, Big Data-ni turli sohalarda amalga oshirishga to'sqinlik qiluvchi asosiy omillardan biri bu qayta ishlanadigan ma'lumotni tanlash muammosi, ya'ni qaysi ma'lumotni olish, saqlash va tahlil qilish kerakligini aniqlash va bu hisobga olinmasligi kerak.

Yana bir katta ma'lumotlar muammosi axloqiy masaladir. Boshqacha qilib aytganda, mantiqiy savol tug'iladi: bunday ma'lumotlarni yig'ish (ayniqsa foydalanuvchini bilmasdan) shaxsiy hayotning chegaralarini buzish deb hisoblash mumkinmi?

Google va Yandex qidiruv tizimlarida saqlanadigan ma'lumotlar IT gigantlariga doimiy ravishda o'z xizmatlarini takomillashtirish, foydalanuvchilarga qulay va yangi interfaol dasturlarni yaratishga imkon beradi. Buning uchun qidiruv tizimlari Internetda foydalanuvchi faoliyati to'g'risidagi ma'lumotlar, IP manzillari, joylashuv ma'lumotlari, qiziqishlar va onlayn xaridlar, shaxsiy ma'lumotlar, pochta xabarlari va hokazolarni to'playdi. Bularning barchasi Internetda foydalanuvchi harakatlariga qarab kontekstual reklama namoyish qilish imkonini beradi. Bunday holda, odatda foydalanuvchilarning roziligi so'ralmaydi va o'zingiz haqingizda qanday ma'lumotlarni taqdim etishni tanlash imkoniyati berilmaydi. Ya'ni, sukut bo'yicha, Big Data keyinchalik sayt ma'lumot serverlarida saqlanadigan barcha narsalarni to'playdi.

Shundan kelib chiqib, ma'lumotlarni saqlash va ulardan foydalanish xavfsizligi bilan bog'liq quyidagi muhim masala kelib chiqadi. Masalan, iste'molchilar o'z ma'lumotlarini avtomatik ravishda uzatadigan bu yoki boshqa tahliliy platforma xavfsizmi? Bundan tashqari, ko'plab biznes vakillari katta hajmdagi ma'lumotlarni samarali boshqarish va ularning yordami bilan muayyan biznes muammolarini hal qilishga qodir yuqori malakali tahlilchilar va marketologlarning etishmasligini ta'kidlamoqdalar.

Big Data-ni amalga oshirishdagi barcha qiyinchiliklarga qaramay, biznes ushbu yo'nalishga investitsiyalarni ko'paytirishni rejalashtirmoqda. Gartner tadqiqotiga ko'ra, ommaviy axborot vositalari, chakana savdo, telekommunikatsiya, bank va xizmat ko'rsatish kompaniyalari Big Data investitsiya sohalarida yetakchi hisoblanadi.

Foydalanilgan adabiyotlar ro'yxati

1. Big Data and Big Data Analytics: Concepts, Types and Technologies November 2018 DOI: 10.21276/ijre.2018.5.9.5 Authors: Youssra Riahi

2. Bernard Marr."Big Data: Using SMART Big Data, Analytics and Metrics To Make Better Decisions and Improve Performance". John Wiley& Sons Ltd, 2015

3. Efficient development of high performance data analytics

4. Andrea De Mauro, Marco Greco and Michele Grimaldi."What is Big Data? A Consensual Definition and a Review of Key Research Topics". In"AIP Proceedings"2014,"4th International Conference on Integrated Information".

5. Sofia Berto Villas-Boas."Big Data in Firms and Economic Research". Applied economics and Finance, Vol. 1, No. 1; May 2014.

6. Тезисы докладов конференции «Большие данные в национальной экономике», Москва, 21 октября 2014 г

7. http s:// www.tadviser.ru/index.php/%D0 %A 1 %D 1 %82%D0%B0%D 1 %82%D 1 %8C%D 1 %8F: %D0%91 %D0%BE%D0%BB%D 1 %8C%D 1 %88%D0%B8%D0% B5_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5_(Big_Data)

8. https://towardsdatascience.com/sorting-algorithms-every-data-scientist-should-know-9c4ff592f28c

i Надоели баннеры? Вы всегда можете отключить рекламу.