Muhammad al-Xorazmiy nomidagi TATU Farg'ona filiali "Al-Farg'oniy avlodlari" elektron ilmiy jurnali ISSN 2181-4252 Tom: 1 | Son: 2 | 2024-yil
"Descendants of Al-Farghani" electronic scientific journal of Fergana branch of TATU named after Muhammad al-Khorazmi. ISSN 2181-4252 Vol: 1 | Iss: 2 | 2024 year
Электронный научный журнал "Потомки Аль-Фаргани" Ферганского филиала ТАТУ имени Мухаммада аль-Хоразми ISSN 2181-4252 Том: 1 | Выпуск: 2 | 2024 год
IJTIMOIY MEDIA STRUKTURALANMAGAN MATNLI MA'LUMOTLARINI QAYTA
ISHLASHDA TASNIFLASH MASALASI
Turakulov Otabek Xolmirzayevich
Muhammad al-Xorazmiy nomidagiToshkent axborot texnologiyalari universiteti, katta o'qituvchi [email protected]
Mamaraufov Odil Abdixamitovich
Muhammad al-Xorazmiy nomidagi Toshkent axborot texnologiyalari universiteti Samarqand filiali, PhD odil.mamaraufov@gmail .com
Do'ztmuxammedova Munira Farxodovna
Muhammad al-Xorazmiy nomidagi Toshkent axborot texnologiyalari universiteti Samarqand filiali, stajyor o'qituvchi [email protected]
Annotatsiya: Ishda strukturalanmagan matnli ma'lumotlarni tahlil qilish, tasniflashda ma'lumotlarni intellektual tahlillash model va algoritmlarini ishlab chiqish masalasi qaralgan. Tadqiqot natijasida ishlab chiqilgan model va algoritmlar ma'lumotlarni intellektual tahlili tizimlari tarkibida tabiiy til matnini tahlillash uchun tasniflash mexanizmini tashkil etish vositalari sifatida joriylashtiriladi. Ishlab chiqilgan usul va modellar yordamida ijtimoiy tarmoq yozishmalarini tasniflash, uning hissiy aloqadorligini aniqlash hamda baholash masalalarini yechishda qo'llaniladi.
Kalit so'zlar: strukturalanmagan matnli ma'lumotlar, ma'lumotlarni intellektual tahlili, tasniflash modellari, tasniflash algoritmlari, ma'lumotlarni intellektual tahlil qilish tizimlari, ijtimoiy tarmoq tahlili, hissiyotlarni tahlil qilish, hissiylik bahosi, matnni tasniflash mexanizmi.
I. Kirish
Respublikamizda o'zbek tilidagi matnli ma'lumotlarga dastlabki ishlov berish, intellektual tahlil qilish va ularni sentimental tahlil qilishga mo'ljallangan algoritm va dasturiy vositalarni ishlab chiqish bo'yicha ilmiy tadqiqotlar olib borilmoqda. Bu borada, o'zbek tilidagi matnini qayta ishlash, tanib olish va tahlilini amalga oshirishda ovozli yoki matnli ma'lumotga ishlov berish hatolik miqdorini kamaytirish orqali tanib olish yoki tahlillash samaradorligini oshirishga yo'naltirilgan mukammal matematik apparatga ega sun'iy intellekt elementlarini o'zida mujassamlashtirgan algoritmik vositani ishlab chiqish asosiy vazifalardan hisoblanadi.
Matnli ma'lumotlarga ishlov berish va tasniflash model, usul va algoritmlarini ishlab chiqish hamda takomillashtirish masalalarini yechish va ularni amaliyotga joriy etish bo'yicha xorijiy olimlardan Ch.Agarval, T.Mikolov, K.V.Voronsov, Yu.I.Juravlev,
A.X.Grey, Z.Yang, P.Turney, T.Wilson va boshqalarning ilmiy ishlari diqqatga sazovor.
O'zbekistonda tanib olish va matnli ma'lumotlarni intellektual tahlil qilishning nazariy asoslarini rivojlantirishga M.M.Kamilov, T.F.Bekmuratov, Sh.X.Fozilov, M.M.Musayev, D.T.Muxamadiyeva, N.S.Mamatov, S.S.Radjabov, A.R.Axatov, O.J.Babomuradov va boshqalar o'zlarining hissalarini qo'shib kelmoqdalar.
Hozirgi kunda matnli ma'lumotlarga dastlabki ishlov berish orqali matnli hujjatlarni tasniflash sifati va samaradorligini oshirish boshqaruvga yo'naltirilgan axborot tizimlarini ishlab chiqish va matnlarga ishlov berish texnologiyalari jadal sur'atlar bilan rivojlanmoqda. Ushbu yo'nalish bo'yicha o'tkazilgan tadqiqotlar tahlili shuni ko'rsatadiki, matnli ma'lumotlarga, hususan, o'zbek tilidagi matnli ma'lumotlarni tahlilash uchun matnli hujjatlarni tasniflash va tahlillash texnologiyalari eng yaxshi,
124
Muhammad al-Xorazmiy nomidagi TATU Farg'ona filiali "Al-Farg'oniy avlodlari" elektron ilmiy jurnali ISSN 2181-4252 Tom: 1 | Son: 2 | 2024-yil
"Descendants of Al-Farghani" electronic scientific journal of Fergana branch of TATU named after Muhammad al-Khorazmi. ISSN 2181-4252 Vol: 1 | Iss: 2 | 2024 year
Электронный научный журнал "Потомки Аль-Фаргани" Ферганского филиала ТАТУ имени Мухаммада аль-Хоразми ISSN 2181-4252 Том: 1 | Выпуск: 2 | 2024 год
istiqbolli texnologiyalaridan biri hisoblanadi. Biroq, bunday texnologiya asosida matnli mablumotlami tasniflash va tahlil qilish avtomatlashtirilgan tizimlarini yaratishda vujudga keladigan muammolar hozirgi kungacha yetarli darajada hal etilmagan. Shuning uchun matnli ma'lumotlarni tasniflash va tahlil qilishning ishonchli, mustaqil va yuqori tezlikni ta'minlovchi usul va algoritmlarini ishlab chiqish muammosi yetarli darajada o'rganilmagan.
II. Metodologiya
Matn ma'lumotlari ko'pincha yuqori darajada strukturalanmagan muhitda uchraydi va ko'pincha odamlar ishtirokida yaratiladi. Ko'p hollarda, veb-hujjatlar ichida matn Hyper Text Markup Language (HTML) teglar, xato yozishlar, noaniq so'zlar ishtirok etgan bo'ladi. Bundan tashqari, bitta veb-sahifada bir nechta blok bo'lishi mumkin, ularning aksariyati reklama yoki boshqa aloqador bo'lmagan narsalar bo'lishi mumkin. Ushbu effektlarni tegishli ishlov berish bilan yaxshilash mumkin. Ishlov berishda keng tarqalgan usullar tasniflari quyidagilar:
1. Platformaga asoslangan ajratish va o'girish;
2. Bo'laklarni qayta ishlash;
3. Normallashtirish.
Bizga strukturalanmagan matnli ma'lumotlarga ishlov berish modeli
A =< D,L,N,T,R > (1)
ko'rinishda berilgan bo'lsin. Bu yerda, D -hujjatlar yoki yozishma matnlar to'plami;
L - lug'at (unikal terminlar tanlanmasi - teglar);
N - hujjatlar yoki yozishma matnlarning umumiy soni;
T- lug'atdagi unikal so'zlar (termlar) soni;
R - matn va teg (termin)lar orasida o'rnatiladigan qoidalar yoki modellar. R = F(D,L) - D to'plamda berilgan matnlarni L termlar lug'ati bilan ishlov berish qoidalari bilan aniqlanadigan funksiya. D berilganlar tuzilmasi va L lug'atning turlariga ko'ra qo'llaniladigan usullar masalaning mohiyatidan kelib chiqadi. Bu yerda strukturalanmagan matnli ma'lumotlarda
xususiyatlarni ajratib olishda quyidagi usullar qaralgan:
- Term chastotasi - teskari xujj at chastotasi (TF-IDF);
- So'zlarni vektorli ifodalash;
- NT asoslangan murakkab namuna.
Matnli ma'lumotlarni intellektual ishlov berilishida quyidagi shartlar inobatga olinadi:
1. Tahlil qilinadigan ma'lumotlar to'la avtomatlashtirilmaydi, jarayon predikat so'z bo'yicha ekspert ishtirokida modellashtiriladi.
2. Ma'lumotlarni tahlillash har yangi ma'lumot kirganda yangidan amalga oshiriladi:
3. Har bir o'ziga hos ma'lumot qiymatlariga ishlov beriladi.
Tadqiqot vazifalaridan kelib, tadqiqot masalaning qo'yilishi quyidagicha shakllamtirildi.
1-masala. Ijtimoiy tarmoqlardagi yozishmalar matnli ma'lumotlariga ishlov berish mexanizmini ishlab chiqish.
2-masala. Matnli ma'lumotlarni tasniflash samaradorligini oshirishning mantiqiy-semantik algoritmini ishlab chiqish.
Hisoblash resursini iqtisod dilishda dastlabki ishlov berishning sodda usullarni qo'llash maqsadga muvofiq. Strukturalanmagan matnli ma'lumotlarni avtomatik qayta ishlashda vektorlarni hisoblash boshqa hisoblashlarda hamda matnlarni tahlil qilishda keng qo'llanilgan. Hozirda qo'llanilishdagi yangilik vektor komponentalari sifatida jamlanmadan hujjatga termlarning kirish chastotasi qo'llanilganligidadir. Term sifatida predmet sohaning muhim so'zini kiritamiz. Matn tarkibidagi termlarni avtomatik chiqarib olish mashinali o'qitishdan foydalanilgan [1]. Vektor modelni qo'llash g'oyasi quyidagidan iborat: jamlanmadagi har bir matnli hujjatni fazodagi nuqta sifatida (yoki vektor fazosidagi vektor ko'rinishida) aks ettiriladi. Bir biriga yaqin joylashgan hujjatlar semantik o'xshash hisoblanadi.
Vektor modelning kosinusli o'xshashligi quyidagi ko'rinishda hisoblanadi:
A^B ZiAi Bi
CosSim(A,B) =
(2)
II А У \\B II
125
Muhammad al-Xorazmiy nomidagi TATU Farg'ona filiali "Al-Farg'oniy avlodlari" elektron ilmiy jurnali ISSN 2181-4252 Tom: 1 | Son: 2 | 2024-yil
"Descendants of Al-Farghani" electronic scientific journal of Fergana branch of TATU named after Muhammad al-Khorazmi. ISSN 2181-4252 Vol: 1 | Iss: 2 | 2024 year
Электронный научный журнал "Потомки Аль-Фаргани" Ферганского филиала ТАТУ имени Мухаммада аль-Хоразми ISSN 2181-4252 Том: 1 | Выпуск: 2 | 2024 год
bunda, А • В - bu A va В vektorlarning skalyar ko'paytmasi, bu yerda ikki hujjat oralig'idagi kosinus miqdori qanchalik katta bo'lsa, ular shunchalik mavzu jihatdan o'xshashligi hisoblanadi. ||Л|| ||ß|| - esa A va В larga mos vektorlar o'lchovi [3].
Vektor modeldan foydalanishning asosiy mazmuni matnni son qiymatga o'tkazishni hamda uning eng mashhur ko'rinishlari - Bag of Words (BoW-so'zlar sumkasi), TF-IDF modeli (TF-IDF: Term Frequency-Inverse Document Frequency), LSI/LSA, LDA va PLSA modellari, Word2Vec, GloVe modellari, ELMo, BERT, GPT-2, ERNIE 2.0, RoBERTA, XLNET modellarini keltirib o'tish mumkin. Vektor ko'rinishida ifodalash orqali matnli ma'lumotlarga ishlov berishning matnni tahlillash hamda tizim va bilimlar bazasini tashkil etish jarayoni amalga oshirish uchun dastlabki ma'lumotlar hajmini qisqartirish hamda bilimlar bazasidan olinuvchi ma'lumotlardan foydalanib matnni sintezlash kabimasalalari hal etiladi [3].
III. Natijalar
Strukturalanmagan matnli ma'lumotlar sifatida ijtimoiy tarmoqlardagi foydalanuvchilarning xabarlari (yozishmalari) ko'rinishida matnli ma'lumotlar tanlanmasi olingan bo'lsin. Har i-xabar Xj = (xx,x2, ...,xn.) kabi so'zlar ketma-ketligida ifodalangan, bu yerda xn. - i-xabardagi so'zlar soni. Avvalo, ijtimoiy tarmoqdagi matnlar tanlanmasida unikal so'zlar lug'ati L tuzib olingan bo'lishi kerak. Shunda, |L| - lug'atdagi unikal so'zlar soni bo'ladi. Shunday holatda, har bir i-xabarlarni sonli vektor ko'rinishida ifodalash mumkin. Bunda Ai vektor |L| o'lchamda bo'lib, undagi har bir Aj komponent Xi xabardagi L lug'atga mansub Xj so'zlar soniga mos keladi. Shunday qilib, formal shaklda vektor Ai=( Ai1, Ai2, ..., Ад) ko'rinishida ifodalanadi.
Katta hajmli korpus bilan ishlaganda, "so'zlar sumkasi" modeli bilan bog'liq ba'zi muammolar bo'lishi mumkin. Belgi vektorlari absolyut termin chastotalariga asoslanganligi sababli, barcha hujjatlar bo'ylab tez-tez uchraydigan ba'zi atamalar bo'lishi mumkin va ular xususiyatlar to'plamidagi boshqa atamalarga soya qilishga moyil bo'lishi mumkin.
Ayniqsa tez-tez uchraydigan so'zlar, ammo ma'lum toifalarni aniqlash uchun belgilar sifatida yanada qiziqarli va samarali bo'lishi mumkin. Bunday holatda TF-IDF samarali bo'ladi. TF-IDF bu termin chastotasiga teskari hujjat chastotasini anglatadi. Bu ikkita o'lchov, termin chastota (t/)va teskari hujjat chastotasi (id/) kombinatsiyasi. Ushbu uslub dastlab foydalanuvchi so'rovlari asosida qidiruv tizimlarini natijalarini reytinglashtirish sifatida ishlab chiqilgan va ma'lumot qidirish va matnni ajratib olishning bir qismi bo'lgan.
TF-IDF mexanizmining matematik ifodasida d matnli hujjat va t so'zlar (termlar) qaraladi, TF(term frequency) - t so'zlarning d hujjatga mansubligining sonli munosabatini bildiradi, ya'ni:
TF(t d) ^ matnli hujjatda t so'zlar soni d matnli hujjatdagi so'zlar soni'
IDF(invers document frequence) - hujjatlar sonining t so'zlar uchragan hujjatlar soniga munosabatining inversiyasidir: /0F(t,0)
D korpusdagi hujjatlar soni = log-.
D korpusda t so zlar uchragan hujjatlar soni
Shunday qilib,
/ N\
t/-id/u = t/jXlog^—)
(3) 1
(3) formulani parametrik ko'rinishida quyidagicha
TF - /DF(t, d, D) = TF(t, d) X /DF(t, D)
(4)
matematik tavsiflanadi. Agar so'zning TF-IDF qiymati qancha katta bo'lsa, shu so'z matnning kalit so'zi hisoblanadi. Masalan, X hujjat (masalan, "Jizzax ovozi" gazetasida) matni uchun
TF-IDF ("Jizzax", x) =0,09,
TF-IDF ("oila", x)=0,16,
TF-IDF ("ayollar", x)=0,21
baholardan "oila" va "ayollar" so'zlari ko'proq uchrashi kalit so'zlar sifatida aniqlandi.
IV. Munozara
Barchaga ma'lum hozirgi kunda internet tarmog'i o'zaro muloqotni tashkil etish, muloqat turlari ichida qisqa davrda (tarix uchun juda qisqa muddat)
126
Muhammad al-Xorazmiy nomidagi TATU Farg'ona filiali "Al-Farg'oniy avlodlari" elektron ilmiy jurnali ISSN 2181-4252 Tom: 1 | Son: 2 | 2024-yil
"Descendants of Al-Farghani" electronic scientific journal of Fergana branch of TATU named after Muhammad al-Khorazmi. ISSN 2181-4252 Vol: 1 | Iss: 2 | 2024 year
Электронный научный журнал "Потомки Аль-Фаргани" Ферганского филиала ТАТУ имени Мухаммада аль-Хоразми ISSN 2181-4252 Том: 1 | Выпуск: 2 | 2024 год
katta auditoriyani qamrab olgan vosita hisoblanadi. Ushbu muloqat turi o'zida matnli, ovozli hamda multimedia vositalarida hosil qilingan almashinuvlarni mujassamlashtiradi. Muloqat turlaridan eng ommaviysi matnli ma'lumot almashinuvi hisoblanadi. Tarmoqdagi muloqat vaqt bilan birga rivojlanishi eksponensial ko'rinishda kechmoqda. Bu esa almashinilayotgan ma'lumotlarga ishlov berish, tahlillash va tasniflash uchun yo'naltirilgan mexanizmlarga qo'yiladigan talablar o'zgarib boradi. Tadqiqotning mazkur qismida internet tarmog'idagi matnli yozishmalardagi hissiy holatlarni tahlillash mexanizmini matnli ma'lumotlarni tasniflash asnosida amalga oshirish yondashuvlarini qarash mumkin. Natijada, bir qator amallarni bajarishga erishish mumkin, masalan:
- Mos ravishda yangi yozuv shakllantirish;
- Mos javob shakllantirish;
- Yozuvlardan muhimlarini ajratish;
- Yozishma olib beruvchining maslakdoshlarini aniqlash;
- Spam ko'rinishidagi yozuvlarni aniqlashtirish va bloklash;
- va h.k.lar.
Yuqoridagini hisobga olgan holda oddiy ko'rinishdagi tasniflash modelini (2) va (4) formulalar asosida amalga oshirildi.
Umuman olganda matndagi hissiy so'zlarni tahlillashga yo'naltirilgan mexanizm ish natijalarini turli rakurslarda turlicha talqin etish mumkin. Amaliy masalalarni yechishda quyidagi yo'nalishlarni qamrab oladi.
1. Internet-resurslarida sotilayotgan mahsulotlar va hizmatlar sifatini baholashda foydalanuvchilar fikrlarini tahlili. Bu yerda baholanayotgan ob'yekt bo'yicha turli fikrlar emas, unga ma'lum bir shablonga asoslangan baholar yoki "ovoz" berishlar orqali tahlil shakllantiriladi.
2. Ijtimoiy-siyosiy holatlarni baholash hamda o'zgarishlarni bashoratlash, strategiyalarni belgilash uchun qo'llash, unda ham turli ko'rinishdagi so'rovlarni tarqatish orqali amalga oshiriladi.
3. Turli mazmundagi internet resurslari mazmundorligini baholash. Bu yerda resurs tushunchasi juda keng qo'llanilishi mumkin. Kontent bahosi omma ongi yaxshi qabul qiluvchi resurslarni ajratish imkonini beradi.
4. Ongga salbiy ta'sirlarni aniqlashga yo'naltirilgan matnli kontentlarni tahlillash va baholash. Ijtimoiy ongga yod (qonun bilan taqiqlangan) tushunchalar, kontentlarni aniqlash va o'rganib baholash uchun foydalaniladi. Bu ko'proq davlat xavfsizligiga mas'ul idoralarning ish faoliyati bilan bog'liq masalalarni hal etishda qo'l keladi.
V. Xulosa
Struturalanmagan matnli
ma]lumotlar(hujjatlar)ga dastlabki ishlov berish, tasniflash va tahlillash bilan bog'liq bo'lgan tizimlarni yaratishda an'anaviy va neyron tarmoqga asoslangan usullarini ishlab chiqishning nazariy va amaliy jihatlarining zamonaviy holatini yorituvchi ilmiy-texnik adabiyotlar taxlili amalga oshirildi. Bu matnlarni tasniflash tizimlarini ishlab chiqishning konseptual tamoyillarini, konstruktiv yondashuvlarini, usul, model va algoritmlarini ishlab chiqish imkonini beradi.
Ishlab chiqilgan an'anaviy yondashuvlarga asoslangan algoritmlarning o'zbek tilidagi matnli ma'lumotlarni (hujjatlarni) dastlabki ishlov berish orqali tartiblash hamda tasniflash masalasida qo'llanilishi natijalari keltirilgan bo'lib, har bir algoritm uchun axborot resurslarida natijalar turli ko'rinishda aks yettirilgan. Matnli hujjatlarni tahlillash yondashuvlari O'zbekiston Respublikasi Oliy ta'lim, fan va innovatsiyalar vazirligi axborot resurslarida (www.edu.uz), "Jizzax ovozi" Jizzax shahar hokimligi va xalq deputatlari kengashi gazetasining ijtimoiy tarmoqdagi yelektron axborot-resurslaridagi turli ko'rinishdagi postlar, yangiliklar va turli xabarlar, ularga bildirilgan fikr-mulohazalarning hissiy ta'luqliligini tasniflash masalalarini hal yetishda joriy qilingan bo'lib, yozishmalar tahliliga ketadigan vaqtni
127
Muhammad al-Xorazmiy nomidagi TATU Farg'ona filiali "Al-Farg'oniy avlodlari" elektron ilmiy jurnali ISSN 2181-4252 Tom: 1 | Son: 2 | 2024-yil
"Descendants of Al-Farghani" electronic scientific journal of Fergana branch of TATU named after Muhammad al-Khorazmi. ISSN 2181-4252 Vol: 1 | Iss: 2 | 2024 year
Электронный научный журнал "Потомки Аль-Фаргани" Ферганского филиала ТАТУ имени Мухаммада аль-Хоразми ISSN 2181-4252 Том: 1 | Выпуск: 2 | 2024 год
50% ga qisqartirish imkonini bergan holda, ish samaradorligini 12-15%ga oshirgan.
Tasniflash sifatini oshirishga yo'naltirilgan turli yondashuvlar asosida qurilgan algoritm, konvalyusion neyiron tarmoqlarining qo'llanilishi turli ruknlarda o'zbek tilidagi matnli hujjat va yozishmalar taqsimoti natijalari keltirilgan, turli obyektlarda olingan natijalar samaradorligi 15-17%ni tashkil yetgan. Tajriba sifatida olingan matnli hujjatlarni tasniflashga ketadigan vaqt 20-25% ga qisqartirish va tasniflash aniqligini 10-17% ga oshirish imkonini berdi. Taklif yetilayotgan yondashuv asosida matnning hissiy tusini aniqlashga yo'naltirilgan tasniflash ko'rsatgichi 89%ni tashkil yetgan.
Foydalanilgan adabiyotlar
1. Большакова Е., Лукашевич Н., Нокель М. Извлечение однословных терминов из текстовых коллекций на основе методов машинного обучения // Информационные технологии. -2013. - С. 31-37
2. J.Cuzzola, J.Jovanovic, E.Bagheri, and D.Gasevic, "Automated classification and localization of daily deal content from the Web," Applied Soft Computing, vol. 31, pp. 241-256, 2015.
3. O.J.Babomuradov., O.X.Turakulov "Matnni intellektual tahlillash yondashuvlari", O'zbekiston Respublikasi fanlar akademiyasi O'zbekiston respulikasi aloqa, axborotlashtirish va telekomunikatsiya texnologiyalari davlat qo'mitasi Informatika va energetika muammolari O'zbekiston jurnali 4 son 2016 y., 68-72 b.
4. Babomuradov O.J., Qo'ylieva F.A., Turakulov O.X. "Clustering approaches to text documents" The scientific journal vehichles and roads, 2022 №1 Научний журнал транспортных средств и дорог, 2022 №12. Стр.109-114.
5. O.J.Babomuradov., O.X.Turakulov, Sh.Karaxanova "Approach to Textual Data Analysis" Central Asian Journal Of Theoretical And Applied Sciences Volume: 04 Issue: 10 |
Oct 2023 ISSN: 2660-5317 https://cajotas.centralasianstudies.org 170-180 b.
128