Научная статья на тему 'INTELLEKTUAL MATN TAHLILI'

INTELLEKTUAL MATN TAHLILI Текст научной статьи по специальности «СМИ (медиа) и массовые коммуникации»

352
34
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
sentiment tahlili / tonallik / ijtimoiy tarmoq / ma‟lumotlar bazasi / xizmatlarni baholash / sentiment analysis / tonality / social network / database / evaluation of services

Аннотация научной статьи по СМИ (медиа) и массовым коммуникациям, автор научной работы — Sabohat Yusupboyevna Allanazarova, Nilufar Zaynobiddin Qizi Abduraxmonova

Fan va texnikaning yuksak darajada rivojlanishi natijasida ijtimoiy saytlar orqali qabul qilinadigan ma‟lumotlar hajmi boshqarib bo„lmaydigan tarzda keskin oshib ketdi. Ko'pchilik foydalanuvchilar duch keladigan asosiy muammo vaqt yetishmasligi. Sababi, barcha ma‟lumotlarni o„qishning iloji yo„q. Bu esa ushbu ma‟lumotlarni saralash zaruratini tug‟diradi. Shu sababli Tabiiy tillar jarayoni (NLP), Mashinaviy o‟qitish (Machine learning), Ma‟lumotlarga ishlov berish (Data Science) va Sun‟iy intellekt kabi sohalarga qiziqishning o„sishi kuzatildi. XXI asr texnologiyalar va intellektual salohiyat asrida insonlarning fikrini o„rganish bo„yicha yangi metod paydo bo„ldi.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

As a result of the high level of development of science and technology, the amount of information received through social sites has increased dramatically. The main problem that most users face is lack of time. Because not all data can be read. Which makes it necessary to sort this data. Therefore, there has been an increase in interest in areas such as the natural language process (NLP), machine learning, data science and artificial intelligence. The 21st century, in the age of technology and intellectual potential, a new method of studying people's opinions has emerged.

Текст научной работы на тему «INTELLEKTUAL MATN TAHLILI»

INTELLEKTUAL MATN TAHLILI

Sabohat Yusupboyevna Allanazarova

O'zbekiston Milliy universiteti magistranti [email protected]

Nilufar Zaynobiddin qizi Abduraxmonova

O'zbekiston Milliy universiteti dotsenti, DSc [email protected]

ANNOTATSIYA

Fan va texnikaning yuksak darajada rivojlanishi natijasida ijtimoiy saytlar orqali qabul qilinadigan ma'lumotlar hajmi boshqarib bo'lmaydigan tarzda keskin oshib ketdi. Ko'pchilik foydalanuvchilar duch keladigan asosiy muammo - vaqt yetishmasligi. Sababi, barcha ma'lumotlarni o'qishning iloji yo„q. Bu esa ushbu ma'lumotlarni saralash zaruratini tug'diradi. Shu sababli Tabiiy tillar jarayoni (NLP), Mashinaviy o'qitish (Machine learning), Ma'lumotlarga ishlov berish (Data Science) va Sun'iy intellekt kabi sohalarga qiziqishning o'sishi kuzatildi. XXI asr texnologiyalar va intellektual salohiyat asrida insonlarning fikrini o'rganish bo'yicha yangi metod paydo bo'ldi.

Kalit so'zlar: sentiment tahlili, tonallik, ijtimoiy tarmoq, ma'lumotlar bazasi, xizmatlarni baholash.

ABSTRACT

As a result of the high level of development of science and technology, the amount of information received through social sites has increased dramatically. The main problem that most users face is lack of time. Because not all data can be read. Which makes it necessary to sort this data. Therefore, there has been an increase in interest in areas such as the natural language process (NLP), machine learning, data science and artificial intelligence. The 21st century, in the age of technology and intellectual potential, a new method of studying people's opinions has emerged.

Keywords: sentiment analysis, tonality, social network, database, evaluation of services

KIRISH

Innovatsion texnologiyalar asrida hayotimizni ijtimoiy tarmoqlarsiz tasavvur qila olmaymiz, shu sababli ham kunlik

April, 2022

358

qabul qilinadigan ma'lumotlar hajmi keskin oshib ketadi. Internet ma'lumotlarining ko'pligi sababli, uni intellektual tahlil qilish zaruriyati va undan turli xil bilimlarni o'zlashtirish masalasi bugungi kunning talabidir.

ADABIYOTLAR TAHLILI VA METODOLOGIYA

Rivojlangan davlatlarda tabiiy tilni qayta ishlash texnologiyalari (NLP) va Informatsion texnologiyalar (IT) sohasida yaxshi natijalarga erishilmoqda. Ushbu ilmiy sohaning eng qiziqarli va samarali usullari orasida Sentiment tahlili ajralib turibdi. Sentiment tahlil qilish kompyuter lingvistikasi uchun samarali tadqiqot yo'nalishlaridan hisoblanadi. Dastlab Sentiment nima o'zi degan savolga javob bersak. Bu - matndagi emotsional rangdagi so'z boyligini avtomatlashtirilgan tarzda aniqlash uchun ishlatiladi. Sentiment tahlili yana quyidagicha nomlanadi:

❖ Fikrlarni izlash (Opinion extraction)

❖ Fikrlarni o'rganish (Opinion mining)

❖ Hissiy tahlil qilish (Sentiment analysis)

❖ Subyektivlik tahlili (Subjectivity analysis)

Hissiyotlarni tahlil qilish va o'rganish - bu yozma tildan odamlarning fikrlari, baholari, munosabati va hissiyotlarni tahlil qiladigan soha bo'lib, dunyo bo'ylab sentiment tahlil deb nomlanadi. Uning qo'llanilishi, biznes xizmatlaridan tortib, siyosiy kompaniyalargacha keng tarqalgan. Xususan:

❖ Media mahsulotlari;

❖ Fond bozorlari;

❖ Siyosat;

❖ Tabiiy ofatlar;

❖ Tibbiyot;

❖ Dasturiy ta'minot;

❖ Muhandislik;

❖ Xizmat ko'rsatish;

❖ Kiberhujum;

❖ Ekstremistik matnlarni neytral matnlardan farqlash va boshqa sohalarda foydalaniladi.

Xususan so'nggi yillarda ekstremizm g'oyalarining internet foydalanuvchilari o'rtasida tarqalishi, matnlarni tahlil qilishning nechog'lik muhim ekanligini isbotlamoqda. Ekstremistik ruhdagi matnlarni neytral matnlardan farqlash orqali yurtimizda sodir bolishi mumkin bo'lgan

xavflarning oldi olinadi. Axborot urushlari paytida bu vazifa eng

April, 2022

muhim vazifalardan biridir Matn ohangini tahlil qilish, inglizcha fikrlarni tahlil qilish demakdir. Leksema yoki kommunikativ parcha darajasida ifodalangan hissiy tarkibiy qism leksik tonallik yoki leksik tuyg'u deb nomlanadi.

Tonallik- bu muallifning matnda ifodalangan ba'zi bir obyektga, real hodisa, jarayonga nisbatan hissiy munosabatidir. Inson dunyoni birdaniga ko'p miqyosda: yaxshi-yomon, kuchli-zaif, katta-kichik, baxtli-baxtsiz, kulguli-g'amgin, tez-sekin sifatida baholaydi. Matnda ifodalangan hissiy bahoning tashuvchisi ham odatda aniq shaxs, umuman olganda u matn muallifidir. Agar matn muallifi birovning fikrini keltirsa, u holda hissiy bahoning tashuvchisiga aylanadi.

Nega hissiyotlar shunchalik muhim? Bu tahlilda asosan biror voqea-hodisaga, real vaziyat yoki mahsulot, ishlab chiqaruvchi korxona, xizmat ko'rsatuvchi muassasalarga ijtimoiy tarmoq foydalanuvchilarining munosabati, e'tirofi, shaxsiy kechinmalari kabi norasmiy sharhlarga e'tibor qaratiladi.

Twitter, Facebook kabi ijtimoiy tarmoqlarda kishilar biznes va xizmatlar haqida baho beradilar va sharhlar yozadilar[6]. Ushbu sharhlar va reytinglar boshqa foydalanuvchilarga biznes yoki xizmatni baholashga va mahsulotni tanlashga yordam beradi. Restoran haqidagi sharhlarga e'tiboringizga qaratamiz:

Ijobiy: Qulay uy muhiti! Buvim yoqtirgani kabi! Oilaviy dam olish uchun ajoyib joy! Xizmat eng yuqori darajada!

Betaraf: Odatiy. Bu oddiy kafega o'xshaydi.

Salbiy: Xizmat ko'rsatish juda yomon, narxlar juda baland, sho'rva issiq emas, bezatilishigina yaxshi, men bu joyni tavsiya qilmayman!

Tasniflash uch toifada amalga oshiriladi: ijobiy yoki salbiy va betaraf. Biroq bu yondashuvlarda cheklov mavjud. Ba'zi tadqiqotchilar ishni besh guruh(ijobiy/o'ta ijobiy, salbiy/o'ta salbiy va betaraf)ga ajratgan holda amalga oshirishlari mumkin. Bu o'rganilayotgan tilning nechog'lik lingvistik resurslar va dasturiy modellarga boy ekanligiga bog'liq. Tasniflashning eng oson usuli bu - ikkilik tasniflash bo'lib, bu ish allaqachon o'zbek tili uchun qilingan.

Ma'lumotlar bilan ishlash. Sentiment tahlilida ma'lumotlar bazasini tuzish o'zbek tili uchun nisbatan murakkab va ancha vaqtni oladi. Buning uchun bot tuzish va ma'lum mavzuga aloqador so'rovnoma o'tkazish kerak bo'ladi yoki ijtimoiy saytlardagi fikrlarni yuklash uchun maxsus kod tuzish mumkin. Meta komponiyasining xavfsizlik tizimi tufayli sharhlarni yuklashda qiyinchilik yuzaga kelishi mumkin.

April, 2022

Avvalo, ma'lumotlarga ishlov berish jarayoni qanchalik muhim va asosiy qism ekanligini ta'kidlash zarur. Buni quyidagi diagramma orqali ko'rishimiz mumkin:

1-rasm. AI muhandislarining 80% dan ortiq vaqti aynan ma'lumotlarga ishlov berishdan iborat bo'ladi. Faqatgina 9% vaqt bevosita mashinaviy o'qitish va 4% ML algoritmni sozlashga ketadi.

Ikkinchi katta muammo so'zlarning o'zagini topish (stemming yoki lemmatizasiya) ya'ni buni avtomatlashtirish.

Mazkur mavzu bo'yicha ko'plab tadqiqot ishlari mavjud. Ushbu bobda tasniflash vazifasi uchun qo'llanilishi mumkin bo'lgan algoritmlarning qisqacha izohlari keltirilgan.

2-rasm. Sentiment tahlili texnikasi

Hissiyotlarni avtomatik aniqlash muammosini hal qilishning ikkita asosiy usuli mavjud:

1. Statistik uslub. Buning uchun oldindan tonallik bilan belgilangan matnlar to'plami (korpus) kerak bo'ladi. Ular bo'yicha model o'qitiladi, uning yordamida matn tasniflanadi;

2. Lug'atlar va qoidalarga asoslangan uslub. Buning uchun ijobiy va salbiy so'zlar va iboralarning lug'ati tuziladi.

Ba'zida aralash (gibrid) uslub ham qo'llaniladi.

April, 2022

361

MUHOKAMA

Matn tahlilidagi asosiy qiyinchilik inson tillarining noaniqligidadir[4]. O'zbek tilidagi matnlar uchun sentiment tahlili dasturini ishlab chiqishda mazkur tilning xususiyati hisobga olinishi zarur. O'zbek tilida berilgan matnli ma'lumotlardan inson fikrini ifodalashni avtomatik keltirib chiqarishni shakllantiradigan modellar qurish asosiy vazifa bo'lib turibdi. Buning uchun ingliz tilida bo'lgan SentiWordNet, SentiNet kabi hissiy tahlil uchun korpus qurish kerak. SentiNet qanday ishlaydi? Hamma fikrlar ham hamisha faqat salbiy yoki ijobiy bo'lavermaydi. Yarmi salbiy, yarmi ijobiy bo'lishi mumkin. Bunda gapning chuqur ma'nosini aniqlash uchun kalit so'zlardan tashkil topgan baza kerak. SentiNet gapning jihati bo'yicha tahlil qiladi.

Ba'zi yomon narsalar yuz berdi, xafa bo'ldim, lekin endi o'zimni yaxshi his qilyapman.

Ijobiy Salbiy

Yaxshi Yomon

Xafa

Ijobiy matn

Yuqoridagi misolda ikki xil fikr ifodalangan. Garchi salbiy so'zlar soni ko'p bo'lsa ham, tahlil gapni ijobiy deb topadi. Sababi ammo, lekin, biroq kabi zidlov bog'lovchilari qatnashgan gaplar tarkibidagi qism tashlab ketiladi. Bu gapning chuqur ma'nosi (aspect based) bo'yicha tasniflashdir.

Sentiment tahlilida matn ohangini aniqlashda so'rovlar muhim ahamiyatga ega. Masalan: aynan bir matnning o'ziga har xil savol berish orqali hukm o'zgarib ketadi:

1. Bu tadbirdan sizga nimalar yoqdi?

2. Bu tadbirdan sizga nimalar yoqmadi?

* *

Hammasi Hech qaysi

Guvohi bo'lganimizdek, birinchi javob ijobiy, ikkinchi javob esa salbiy bahoni ifodalagan. Yana boshqa misolni ko'rsak:

1. Sumka qizil

2. Sumka yaxshi

Bir qarashda birinchi izoh betaraf, ikkinchi izoh esa, ijobiy fikr ifodalagandek tuyuladi. Aslida ikkala izoh ham ijobiy fikr bo'lib, yaxshi so'zida subyektiv baho kuchli bo'lganligi sababli darrov e'tiborni tortadi.

O'zbek tilida ibora, kinoya piching, kesatiqlardan keng foydalaniladi. Bu esa mashinaga tahlil qilish jarayonida

April, 2022

362

qiyinchilik tug'diradi. Masalan: Qirq marta o'lchab, bir marta kesmoq -

extiyotkor ma'nosida qo'llaniluvchi ushbu iborani kompyuter alohida-alohida so'zlar sifatida qabul qiladi. Xususan, kinoya haqida gap ketganda, odamlar o'zlarining salbiy his-tuyg'ularini ijobiy so'zlardan foydalangan holda ifoda etadilar. Kinoyaviy qo'llanilgan so'z og'zaki nutqda o'ziga xos, farqli intonatsiya bilan aytilsa, yozuvda ko'pincha qo'shtirnoq bilan ijratiladi: Bugun geografiya o'qituvchisi darsga kelmadi. So'ridan yiqilib, oyog'ini sindiribdi. Bu "xushxabar"dan keyin butun sinf bo'shadi-qoldi. "Shumxabar" tarzidagi bu kinoyani mashina tushunadigan dastur ishlab chiqishni talab qiladi Bu esa mashinaga tahlil qilish jarayonida qiyinchilik tug'diradi [3]. Masalan: "Elmurod bu sohada eng mohiri". Kompyuter bu jumladagi teskari ma'noni tushunmaydi. Natijada fikrni ijobiy deb baholaydi. Hozirgacha o'zbek tilida qilingan ishlarda paremiologik birliklar tashlab ketilgan.

Ma'lumki, biror mahsulot yoki muammoga qiziqish dastlab uni o'rganishdan boshlanadi. Ijtimoiy tarmoqlarda esa istalgancha izlash imkoni mavjud. Axborotlar shunchalik ko'pki, bu ma'lumotlarni to'liq o'rganib chiqish uchun bir kishining 24 soat vaqti kifoya qilmaydi. Sentiment tahlilining maqsadi ijtimoy tarmoqlarning kuchidan turli xil sohalardagi kayfiyatni o'rganishdan iborat.

REFERENCES

1. Abduraxmonova N. Z. "Linguistic support of the program for translating English texts into Uzbek (on the example of simple sentences): Doctor of Philosophy (PhD) il dis. aftoref." (2018).

2. Abdurakhmonova N. The bases of automatic morphological analysis for machine translation. Izvestiya Kyrgyzskogo gosudarstvennogo tekhnicheskogo universiteta. 2016;2 (38):12-7.

3. Abdurakhmonova N, Tuliyev U. Morphological analysis by finite state transducer for Uzbek-English machine translation/Foreign Philology: Language. Literature, Education. 2018(3):68.

4. Abdurakhmonova N, Urdishev K. Corpus based teaching Uzbek as a foreign language. Journal of Foreign Language Teaching and Applied Linguistics (J-FLTAL). 2019;6(1-2019): 131-7.

5. Abdurakhmonov N. Modeling Analytic Forms of Verb in Uzbek as Stage of Morphological Analysis in Machine

XULOSA

April, 2022

Translation. Journal of Social Sciences and Humanities Research. 2017;5(03):89-100.

6. Abdurakhmonova N. Dependency parsing based on Uzbek Corpus. InProceedings of the International Conference on Language Technologies for All (LT4All) 2019.

7. Aripov M., Sharipbay A., Abdurakhmonova N., Razakhova B.: Ontology of grammar rules as example of noun of Uzbek and Kazakh languages. In: Abstract of the VI International Conference "Modern Problems of Applied Mathematics and Information Technology - Al-Khorezmiy 2018", pp. 37-38, Tashkent, Uzbekistan (2018)

8. Go A., Bhayani, R., & Huang, L. (2009). Twitter sentiment classification using distant supervision. CS224N Project Report, Stanford, 1(12).

9. Kubedinova L. Khusainov A., Suleymanov D., Gilmullin R., Abdurakhmonova N. First Results of the TurkLang-7 Project: Creating Russian-Turkic Parallel Corpora and MT Systems. Proceedings of the Computational Models in Language and Speech Workshop (CMLS 2020) co-located with 16th International Conference on Computational and Cognitive Linguistics (TEL 2020) .2020/11: 90-101

10. Kuriyozov E., Matlatipov S. Building a new Sentiment Analysis Dataset for Uzbek Language and Creating Baseline Models.// Multidisciplinary Digital Publishing Institute Proceedings. 2019.-№1. Pages 37.

11. Rabbimov I., Mporas I., Kobilov S. Investigating the effect of emoji in opinion classification of uzbek movie rewiev comments. International Conference on Speech and Computer Science. -2020.-P.435-445.

12. Chen Yanqing and Steven Skiena, 2014. Building sentiment lexicons for all major languages. In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Vol. 2: Short Papers). Baltimore, Maryland: Association for Computational Linguistics. Chollet, Francois et al., 2015. Keras. https:// github.com/fchollet/keras.

April, 2022

i Надоели баннеры? Вы всегда можете отключить рекламу.