Научная статья на тему 'MATNLI MA’LUMOTLARNI VEKTORLARDA IFODALASH USULLARINI TAHLIL QILISH'

MATNLI MA’LUMOTLARNI VEKTORLARDA IFODALASH USULLARINI TAHLIL QILISH Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
43
9
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
word2vec / glove / skip-gram / CBOW / vector / classification / phrase / semantic

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — B.I.Otaxonova, R.I. Sattarov, B.Sh.Abdushukurov, O.O.Olimjonov

In today's many text analysis applications, there is a growing demand for advanced machine learning techniques to accurately classify texts. This work presents an analysis of word2vec and glove methods of vector representation of textual data. Word2vec and GloVe methods are one of the popular methods of natural language processing (NLP) technologies for describing the semantic properties of words using mathematical vectors.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «MATNLI MA’LUMOTLARNI VEKTORLARDA IFODALASH USULLARINI TAHLIL QILISH»

INTERNATIONAL SCIENTIFIC AND TECHNICAL CONFERENCE "DIGITAL TECHNOLOGIES: PROBLEMS AND SOLUTIONS OF PRACTICAL IMPLEMENTATION IN THE SPHERES" APRIL 27-28, 2023

MATNLI MA'LUMOTLARNI VEKTORLARDA IFODALASH USULLARINI TAHLIL

QILISH

B.LOtaxonova1, R.I. Sattarov2, B.SH.Abdushukurov3, O.O.Olimjonov4

1Muhammad al-Xorazmiy nomadigi TATU, ATDT kafedrasi dotsenti, 2'3Muhammad al-Xorazmiy nomidagi TATUmagistranti, 4Muhammad al-Xorazmiy nomadigi TATU talabasi

https://doi.org/10.5281/zenodo.7856172

Abstract. In today's many text analysis applications, there is a growing demand for advanced machine learning techniques to accurately classify texts. This work presents an analysis of word2vec and glove methods of vector representation of textual data. Word2vec and GloVe methods are one of the popular methods of natural language processing (NLP) technologies for describing the semantic properties of words using mathematical vectors.

Keywords: word2vec, glove, skip-gram, CBOW, vector, classification, phrase, semantic

Xozirgi kunda ko'plab so'zlarni vektorlik ifodalovchi algoritmlar mavjud bo'lib, matnli ma'lumotlarni tasniflashda qo'llanilmoqda. Tilning semantik vektor fazo modellari (Semantic Vector Space Models) tilni matematik vektorlariga aylantirish va uning semantik aloqalarini tasvirlash uchun ishlatiladigan usullardir. Bu usullar odatda tabiiy tilda ishlovchi (NLP) texnologiyalarning asosiy vositalaridan biri hisoblanadi. Bu modellar, so'zlarning bir-biriga yaqinligini va aloqalarini tushunish uchun ishlatiladi. Misol uchun, bir hujjatdagi so'zlar o'rtasidagi aloqa darajasini yoki bir so'zning o'xshash so'zlar bilan taqqoslashini aniqlash uchun Semantic Vector Space Models qo'llaniladi.

Bu modellar turli usullarda ishlatiladi, masalan, Latent Semantic Analysis (LSA) va Word2Vec usullari kabi. LSA, bir matritsaning faktorizatsiyasi asosida ishlaydi va so'zlar o'rtasidagi o'xshashlik va aloqalarni tasvirlash uchun qo'llaniladi. Word2Vec esa, so'zlar o'rtasidagi aloqalarni aniqlash uchun ikkita usulni taqdim etadi - Continuous Bag of Words (CBOW) va Skip-Gram [1].

Tilning semantik vektor fazo modellari odatda ma'lumotlar ko'pligi yoki tilning umumiy tili ma'nosini hosil qilingan korpuslarda ishlatiladi. Ushbu modellar odatda o'zaro bir-biriga o'xshashliklar va aloqalarni tushunishga ko'maklashadi, bu esa tabiiy tildagi so'zlashuvni sodda va samarali amalga oshirish imkonini beradi [2].

Tilning semantik vektor fazo modellari har bir so'zni real qiymatli vektor bilan ifodalaydi. Ushbu vektorlar turli xil ilovalarda (masalan, ma'lumot olish, hujjatlarni tasniflash, savollarga javob berish, nomlarni aniqlash va tahlil qilish) funktsiyalar sifatida ishlatilishi mumkin. Ko'plab so'z vektor usullari so'z vektorlari juftlari orasidagi masofa yoki burchakka tayanadi, bunday so'zlarni tasvirlash to'plamining ichki sifatini baholashning asosiy usuli sifatida ko'riladi [3].

So'zlar orasidagi munosabat so'zlar orasidagi kosinus masofasi bilan belgilanadi. Bunday so'z vektorlari analogiya savollariga aniqlikda javob beradi. Misol uchun, quyidagi 1 - rasmda biz bilim va ta'lim orasidagi masofa ilm va tarbiya orasidagi masofaga teng ekanligini ko'ramiz.

INTERNATIONAL SCIENTIFIC AND TECHNICAL CONFERENCE "DIGITAL TECHNOLOGIES: PROBLEMS AND SOLUTIONS OF PRACTICAL IMPLEMENTATION IN THE SPHERES" APRIL 27-28, 2023

Bilim

1-rasm. So'zlarni vektorda ifodalash

So'zlarni qo'shish orqali so'z birikmalarini olish mumkin: bu vektorlar ustida ularning semantikasini saqlagan holda arifmetik amallarni bajarish mumkin bo'lganligi sababli, alohida so'zlarga qo'shish orqali ibora uchun joylashishni topish mumkin. Natijada, bir nechta ilovalarda, agar ikkita xabar yoki hujjat so'zlarni almashsa ham, ularning semantik o'xshashligini alohida so'zlarni qo'shish orqali olingan frazemalarni joylashtirishdagi kosinus o'xshashliklarini solishtirish orqali olish mumkin [4].

Word2Vec va GloVe (Global Vectors for Word Representation) Tilning semantik vektor fazo modellari (Semantic Vector Space Models) dan ikkita mashhur usullardir. Ular matnli ma'lumotlardan vektorlarni hosil qilishda ishlatiladigan modellar hisoblanadi [5].

So'zlarni vektorlik ifodalovchi Word2vec va glove algoritmalari ham so'zni vektor ko'rinishida ifodalash imkonini beradi. Ular so'z ma'nosining har tomonlama qamrab oladigan so'zlarning semantik o'xshashligini keltirib chiqaradigan va so'zlarni to'g'ri joylashtirish uchun ikkita eng mashhur algoritmlardan hisoblanadi [6].

Word2vec va glove usullarining xususiyatlaridagi farq ikkala usul o'qitilishi bilan farqlanadi. Glove modeli butun korpusdan foydalangan holda global so'zdan so'zga qo'shilish sonidan foydalanishga asoslansa, Word2vec mahalliy kontekstda (qo'shni so'zlar)dan birgalikda foydalanadi [7].

Word2vec, biror so'zning ma'nosini, ushbu so'zga o'xshash so'z bilan vektorli hisoblash amallari yordamida tasvirlaydi. Bu ko'rinishdagi tasvirlar so'zlar o'ziga xos o'xshashlik va bog'liqligi uchun ko'plab tasvirlarni olish imkonini beradi. Word2vec turli til modellarini hamda so'zlarning o'ziga xos o'xshashliklarini, aloqalarini va ma'nolarini taqqoslash uchun foydalaniladi.

GloVe, "Global Vectors for Word Representation" degan ma'noda. Bu algoritm, bir so'zning ko'rsatkichlarini va tez-tez paydo bo'lishini bilish, o'sha so'zning semantik ma'nosini tasvirlash uchun matritsa faktorizatsiya usulidan aniqlanadi. GloVe, Word2vec dan yaxshi foydalanish imkonini beradi va so'zlar o'ziga xos o'xshashlik va aloqalarni so'zlarga nisbatan samarali yoritadi [8].

INTERNATIONAL SCIENTIFIC AND TECHNICAL CONFERENCE "DIGITAL TECHNOLOGIES: PROBLEMS AND SOLUTIONS OF PRACTICAL IMPLEMENTATION IN THE SPHERES" APRIL 27-28, 2023

Word2Vec, so'zlar o'rtasidagi aloqalarni aniqlash uchun ikkita usulni taqdim etadi -Continuous Bag of Words (CBOW) va Skip-Gram. CBOW, berilgan so'zning ma'nosi aniqlangan bo'lsa, uni tahlil qilish uchun bir nechta o'xshash so'zlarni ishlatadi. Skip-Gram esa, berilgan so'z o'rtasidagi o'xshash so'zlarni aniqlash uchun ishlatiladi. Word2Vec usuli aloqalarni aniqlashda samarali bo'ladi, ammo korpusni ko'proq katta bo'lishi kerak va muammo, "OOV" (Out Of Vocabulary) deb nomlanuvchi so'zlar muammoga olib kelishi mumkin [9].

GloVe esa, so'zlarning korpusdagi hamma turi bo'yicha ochilish vaqti ta'sirida o'xshashligini tushuntiradi. GloVe, so'zlarni vektorlarga aylantirishda global statistikani ishlatadi, ya'ni, barcha korpusning istalgan joyida paydo bo'ladigan so'zlarni ko'rib chiqadi. GloVe usuli Word2Vec dan farqli ravishda, hamma so'zlar uchun umumiy ko'rsatkichlar hisoblanadi.

Xulosa qilib aytganda asosiy farq shuki, Word2Vec aloqalarni aniqlash uchun har bir so'z uchun alohida vektor hosil qiladi, GloVe esa barcha so'zlar uchun umumiy ko'rsatkichlar yaratadi. Shuningdek, Word2Vec da OOV so'zlar muammoga olib kelishi mumkin, GloVe esa shunga echim beradi. Word2vec va GloVe algoritmalar matematik vektorlari yordamida so'zlar o'rtasidagi semantik aloqalarni tasvirlash uchun qo'llaniladigan usullardir. Ikki algoritmda ham so'zlar o'rtasidagi o'xshashlik, aloqalar va ma'noni tasvirlash uchun foydalaniladi. Word2vec ko'plab vositalarni qo'llab-quvvatlaydi, GloVe esa semantikni to'g'ri shaklda tasvirlaydi.

REFERENCES

1. P. Liu, X. Qiu, and X. Huang, "Recurrent neural network for text classification with multi -task learning," arXiv preprint arXiv:1605.05101, 2016.

2. J. Kim, S. Jang, E. Park, and S. Choi, "Text classification using capsules," Neurocomputing, vol. 376, pp. 214-221, 2020.

3. Tomas Mikolov, Ilya Sutskever, Kay Chen, Greg Korrado va Jeffri Din. So'z va iboralarning taqsimlangan ko'rinishlari va ularning kompozitsiyasi . NIPS materiallarida, 2013 yil.

4. Jeffri Pennington, Richard Socher va Kristofer D. Manning. 2014. GloVe: So'zni ifodalash uchun global vektorlar . [ pdf ] [ bib ]

5. https://nlp.stanford.edu/pubs/glove.pdf.

6. https://code.google.com/archive/p/word2vec/.

7. https://www.fer.unizg.hr/_download/repository/TAR-2020-reading-05.pdf

8. https://nlp.stanford.edu/pubs/glove.pdf

9. 9.https://svivek.com/teaching/deep-learning-nlp/spring2019/slides/word-embeddings/4-word2vec-glove.pdf

i Надоели баннеры? Вы всегда можете отключить рекламу.