Научная статья на тему 'MATNDAGI NOSTANDART SO‘ZLARNI NORMALLASHTIRISH MASALALARI VA ULARNI YECHISH USULLARI'

MATNDAGI NOSTANDART SO‘ZLARNI NORMALLASHTIRISH MASALALARI VA ULARNI YECHISH USULLARI Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
46
8
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Shukurov Kamoliddin Elbobo O‘g‘li, To‘rayev Boburxon Shuhrat O‘g‘li, Xasanov Umidjon Komiljon O‘g‘li

Matnni normallashtirish text-to-speech tizimining muhim tarkibiy qismi bo‘lib, matnni normallashtirishdagi qiyinchilik nostandart so‘zlarni (non-standart words) ajratishdir. Ushbu maqola keng miqyosli o‘zbek tili nutqi asosida nostandart so‘zlarlarning taksonomiyasini ishlab chiqadi va ikki bosqichli nostandart so‘zlarlarni aniqlashtirish strategiyasini taklif qiladi, dastlabki tasniflash uchun cheklangan davlat avtomatlari va pastki sinflarni aniqlash uchun maksimal entropiya tasniflagichlari. yuqoridagi nostandart so‘zlar taksonomiyasiga asoslanib, ikki bosqichli yondashuv ochiq testda 98,53% aniqlikka erishadi. Tajribalar shuni ko‘rsatadiki, nostandart so‘zlar taksonomiyasining yuqori boshlang‘ich ishlashini ta'minlaydi va maksimal entropiya tasniflagichlari sezilarli yaxshilanishlarga erishadi.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «MATNDAGI NOSTANDART SO‘ZLARNI NORMALLASHTIRISH MASALALARI VA ULARNI YECHISH USULLARI»

INTERNATIONAL SCIENTIFIC AND TECHNICAL CONFERENCE "DIGITAL TECHNOLOGIES: PROBLEMS AND SOLUTIONS OF PRACTICAL IMPLEMENTATION IN THE SPHERES" APRIL 27-28, 2023

MATNDAGI NOSTANDART SO'ZLARNI NORMALLASHTIRISH MASALALARI VA

ULARNI YECHISH USULLARI Shukurov Kamoliddin Elbobo o'g'li \ To'rayev Boburxon Shuhrat o'g'li 2, Xasanov Umidjon Komiljon o'g'li 3

1Muhammad al-xorazmiy nomidagi TATU kafedra dotsenti, 2Muhammad al-xorazmiy nomidagi TATU tayanch doktoranti, 3Muhammad al-xorazmiy nomidagi TATU asistent https://doi.org/10.5281/zenodo.7856114

Annotatsiya. Matnni normallashtirish text-to-speech tizimining muhim tarkibiy qismi bo'lib, matnni normallashtirishdagi qiyinchilik nostandart so'zlarni (non-standart words) ajratishdir. Ushbu maqola keng miqyosli o'zbek tili nutqi asosida nostandart so'zlarlarning taksonomiyasini ishlab chiqadi va ikki bosqichli nostandart so'zlarlarni aniqlashtirish strategiyasini taklif qiladi, dastlabki tasniflash uchun cheklangan davlat avtomatlari va pastki sinflarni aniqlash uchun maksimal entropiya tasniflagichlari. yuqoridagi nostandart so'zlar taksonomiyasiga asoslanib, ikki bosqichli yondashuv ochiq testda 98,53% aniqlikka erishadi. Tajribalar shuni ko'rsatadiki, nostandart so'zlar taksonomiyasining yuqori boshlang'ich ishlashini ta'minlaydi va maksimal entropiya tasniflagichlari sezilarliyaxshilanishlarga erishadi.

Kirish. Matnni normallashtirish TTS tizimlarida matn tahlilining hal qiluvchi komponentidir. O'zbek tili matnida juda ko'p nostandart so'zlar mavjud, chunki ularning xususiyatlarini lug'atda topib bo'lmaydi va «harfdan tovushga» qoidalarini qo'llash orqali ularning talaffuzini topib bo'lmaydi [1]. Nostandart so'zlarni mos keladigan standart so'zlarga normallashtirish kerak va bunday jarayon matnni normallashtirish deb ataladi. Ingliz tilida raqam ifodalari va qisqartmalar nostandart so'zlar hisoblanadi. Hatto jumlalarni segmentatsiyalash ham matnni normallashtirish vazifasiga kiradi. O'zbek tili uchun raqamlar, belgilar va alifbolar kabi o'zbekcha bo'lmagan so'zlarni o'zbekcha shakllarga normallashtirish kerak. Nostandart so'zlar mahalliy kontekstga va matn janriga qarab turli xil standart so'zlarga o'zgartirilishi mumkin. Demak, umuman olganda bu, o'ta og'ir omografni aniqlash vazifasidir [2]. Nuance Vocalizer-da asosiy dastur kodining 20% dan ortig'i (kod metrikasi qatori) matnni normallashtirishga bag'ishlangan va yangi kiritish shakllari qo'shilishda davom etmoqda [3]. Matnni normallashtirishning odatiy usullari oddiy tayyorlangan qoidalarga asoslanadi. Ammo bunday oddiy tayyorlangan qoidalarni yozish, saqlash va yangi domenlarga moslashish qiyin. Boshqa tomondan, gomografni aniqlashni hisobga olgan holda, mashinali o'qitishning ko'plab usullari qo'llaniladi va ularning afzalliklarini ko'rsatdi. Qarorlar daraxti va qarorlar ro'yxati ingliz va hind tilidagi matnni normallashtirishda qo'llaniladi, xususan o'zbek tilida ham[4]. Support vektor machine(SVM) klassifikatsiya algoritmi tasnifiga ko'ra matn ma'lumotlari sinflashtiriladi va qo'llaniladi [5].

Biroq o'zbekcha matnni normallashtirish modullarining aksariyati qoidalarga asoslangan va so'zlarni segmentatsiyalash jarayonidan oldin amalga oshiriladi. Chunki o'zbekcha matnda so'zlar orasida bo'sh joylar har xil holatda amalga oshiriladi. Adabiyotda tashqi qoidaga asoslangan o'zbekcha matnni normallashtirish usulini qabul qiladi. U 15 dan ortiq tashqi qoidalarni hamda so'z va nutq ma'lumotlaridan foydalanadi. Yana boshqalar so'z segmentatsiyasini, nomli ob'ektni tanib olish va nostandart so'zlar jarayonini birlashtirilgan ramkaga qo'ydi .

INTERNATIONAL SCIENTIFIC AND TECHNICAL CONFERENCE "DIGITAL TECHNOLOGIES: PROBLEMS AND SOLUTIONS OF PRACTICAL IMPLEMENTATION IN THE SPHERES" APRIL 27-28, 2023

Ushbu maqolada taklif qilingan matnni normallashtirish usuli so'zlarni segmentats iyalash jarayonini talab qilmaydi. Cheklangan holat avtomatlari matndan nostandart so'zlarni aniqlaydi va dastlabki tasnifni amalga oshiradi, so'ngra keyingi tasniflash uchun maksimal entropiya tasniflagichlaridan foydalaniladi.

Nostandart so'z taksonomiyasi keng miqyosli TTS korpus tizimli tekshiruvidan so'ng ishlab chiqilgan. Ushbu taksonomiya asosida uch qatlamli normallashtirish jarayoni ishlab chiqilgan. Cheklangan holat avtomatlari nostandart so'zlarni aniqlash va dastlabki tasniflash uchun ishlatiladi. Nostandart so'zlarni keyingi tasniflash uchun maksimal entropiya tasniflagichlari qo'llaniladi va sonli holat transduserlari standart so'zlarni yaratish uchun ishlatiladi.

Nostandart so'z taksonomiyasi matnni normallashtirishning asosidir. U nostandart so'z toifalarini belgilaydi, ularga ko'ra nostandart so'zlar aniqlanadi, tasniflanadi va o'zgartiriladi. O'zbek tili matnida arab, rim raqamlari va ba'zi belgilar normallashtiriladigan asosiy ob'ektlardir. Taksonomiya 30 raqamli qatorni o'z ichiga olgan.

Jadval 1.

Kirish formatlariga asoslangan nostandart so'zlar taksonomiyasi

raqamlar 1,2,3, va hokazo...

nuqta 1.29, 2000.9.10, 162.105.81.14, ...

defis 1998-2002, 2000-9-10, 4-3-2-1, ...

Raqamlar slesh 1/3, 2000/9/10, ...

ko'rsatgich 10:15, 10:15:20, ...

qo'shimchalar %,s(o'n ming), sifatlovchilar, ...

diapazoni 100-200 D(100 dan 200 kishigacha), ...

boshqalar '99, ...

Simvollar - / • X > =

Boshqalar URL, Email, Alfabetlar, ...

1-jadval nostandart so'z taksonomiyasining qisqacha tavsifi keltirilgan. Nostandart so'zlar birinchi navbatda formatlari bo'yicha tasniflanadi. Algoritmdagi 276 nostandart so'zning 95% raqamlar qatorlari, raqamli qatorlar va belgilarning turli kombinatsiyalari (nuqta, defis, slash, ikki nuqta va boshqalar) va o'zbekcha kvalifikatsiyalar kabi qo'shimchali raqam satrlarini o'z ichiga olgan son ifodalari. Belgilar o'zgartirilishi kerak bo'lgan yana bir toifadir va ba'zi belgilar ko'p talaffuzga ega. URL va elektron pochta manzillarini normallashtirish aniq. Ingliz alifbosi satrlari o'zlarining tegishli o'zbekcha tarjimalariga ega. Boshqa barcha noyob nostandart so'zlar ham "Boshqalar" toifasiga qo'shiladi. Taksonomiyaga jami 48 turdagi turli formatdagi nostandart so'zlar kiritilgan. Bu turlarning ba'zilari aniq talaffuzga ega, boshqalari esa yo'q.

Talaffuzi formatlar bilan belgilanadigan nostandart so'zlar Asosiy nostandart so'zlar (Bnostandart so'zs), noaniq nostandart so'zlar esa noaniq nostandart so'z (Anostandart so'z) deb nomlanadi. 2-jadval va 3-jadval mos ravishda Bnostandart so'z va Anostandart so'zlarga ba'zi misollar keltiradi. 2-jadvalda Bnostandart so'zlarning algoritmda taqsimlanishi ko'rsatilgan.

251

INTERNATIONAL SCIENTIFIC AND TECHNICAL CONFERENCE "DIGITAL TECHNOLOGIES: PROBLEMS AND SOLUTIONS OF PRACTICAL IMPLEMENTATION IN THE SPHERES" APRIL 27-28, 2023

Ko'rinib turibdiki, Bnostandart so'z barcha nostandart so'z hodisalarining taxminan 84% ni tashkil qiladi va "miqdor" barcha bu hodisalarning 55% ni tashkil qiladi. Bu shuni anglatadiki, nostandart so'zlarning 84% talaffuzi ularning formatlari bilan belgilanadi va faqat 16% noaniqdir. "Miqdorda" o'zbekcha sifatlovchilar va o'lchovlar kabi qo'shimchalar nostandart so'z talaffuzlarini aniqlash uchun muhim vositadir.

Jadval 2.

Bnostandart so'zlarga misollari

Nostandart so'zlar sinfi Misol Foiz

Ko'rsatgichlar 35 P inchi,nchi 55%

Butunlar 100 $ 8%

Foizlar 10%, 12.5% 6%

Sana 27 oktabr 4%

Raqam va so'zlar 15 ming 3%

Raqamlar bazisi 5 kg, 10 cm 2%

Yillar 5 yil 2%

Boshqalar Win32 4%

Jadval 3.

Anostandart so'zlarga misollari

Nostandart so'zlar sinfi So'zlar misol

Raqamlar Raqamga raqam 2 ga 11 (2.11 metr)

butun 110

Ovoz bersh 110

Inliz alifbosi p2p

a-giper yil-yil 1998-1999

telefon +99893 385 34 34

raqam-raqam 737-200 (Boying737-200)

son-son 200-300

rate 2-3

Subtract 100-1=99

INTERNATIONAL SCIENTIFIC AND TECHNICAL CONFERENCE "DIGITAL TECHNOLOGIES: PROBLEMS AND SOLUTIONS OF PRACTICAL IMPLEMENTATION IN THE SPHERES" APRIL 27-28, 2023

Slesh Fraction 1/3

sana 2001/01

Dominant Vaqt 10:15 (10:15 soat)

Qadam 10:15

3-jadvalda javoblarning ayrim toifalari va ularni talaffuz qilishning mumkin bo'lgan usullari ko'rsatilgan. Ko'rinib turibdiki, ba'zi nostandart so'zlar yuqori darajada noaniqliklarga ega va ularning ma'nosi ichki va kontekstli ma'lumotlarga muhtoj. Yuqoridagi taksonomiyaga asoslanib, matnni normallashtirish jarayoni uch bosqichdan iborat. Birinchi bosqichda haqiqiy matndan nostandart so'zlarni aniqlash va dastlabki tasniflash uchun mashinali o'qitish algoritmdan foydalaniladi. Ushbu bosqichda Bnostandart so'z tasnifi tugallanadi. Javob berish uchun boshlang'ich tasnifning chiqishi subklassni aniqlash uchun ishlatiladi. Maksimal entropiya klassifikatorlari pastki sinfni aniqlashtirish modulida qo'llaniladi. Nostandart so'zlar sinf yorlig'i bilan belgilangan bo'lsa, Cheklangan holat o'tkazgich uni standart so'zlarga aylantiradi. Jarayon oqimi 1-rasmda tasvirlangan va uning ishlash jarayoni 2,3 - rasmda ko'rsatib o'tilgan.

Real Tekst ;

F ST

FSA

sinflashtirish

i r

Subklass sinfi

Standard so'zga generatsiyalash

T

Normallashgan Tekst

1-rasm. Matnni normallashtirish sxemasi

3 - rasm. Dasturdan foydalanish natijasi

INTERNATIONAL SCIENTIFIC AND TECHNICAL CONFERENCE "DIGITAL TECHNOLOGIES: PROBLEMS AND SOLUTIONS OF PRACTICAL IMPLEMENTATION IN THE SPHERES" APRIL 27-28, 2023

Xulosa.Ushbu maqola o'zbekcha matnni normallashtirish bo'yicha keng qamrovli tekshiruv o'tkazadi. Nostandart so'z taksonomiyasi keng miqyosli korpus asosida ishlab chiqilgan. Taksonomiyani tizimli tahlil qilgandan so'ng, ikki bosqichli nostandart so'zlarni tasniflash strategiyasi, dastlabki tasniflash uchun chekli holat avtomatlari va keyingi tasniflash uchun maksimal entropiya tasniflagichlari taklif etiladi. Tajriba natijalari shuni ko'rsatadiki, bu yondashuv yaxshi samaradorlikka erishadi va yangi domenlar uchun yaxshi umumlashtiriladi. Bundan tashqari, bu yondashuv xarakterga asoslangan bo'lib, so'zlarni segmentatsiyalash jarayonini talab qilmaydi.

REFERENCES

1. Richard Sproat, Alan Black, Stanley Chen, Shankar Kumar, Marsi Ostendorf, and Christopher Richards, "Normalization of Non-Standard Words," Computer Speech and Language, 15(3):pp. 287-333, 2001.

2. Abdurakhmonov N. Modeling Analytic Forms of Verb in Uzbek as Stage of Morphological Analysis in Machine Translation. Journal of Social Sciences and Humanities Research. 2017;5(03):89-100.

3. Abduraxmonova, N. Z. "Linguistic support of the program for translating English texts into Uzbek (on the example of simple sentences): Doctor of Philosophy (PhD) il dis. aftoref." (2018).

4. Musaev M. M., «Sovremennbie metodbi sifrovoy obrabotki rechevbix signalov.,» Vestnik TUIT, t. 2, № 42, pp. str. 2-13, 2017[In Russian].

5. Musaev M.M., Xujayarov I.Sh., Ochilov M.M., «Mashinali o'qitish algoritmlari asosida o'zbek tili fonemalarini tanib olish.,» Informatika va energetika muammolari., t. 6, 2019[In Uzbek].

6. Alimuradov A.K.,Churakov P.P., «Обзор и классификация методов обработки речевых сигналов в системах распознавания речи» Izmerenie. Monitoring. Upravlenie. Kontrol, t. №2, № 12, pp. 27-35, 2015[In Russian].

7. Musaev M., Khujayorov I. and Ochilov M., «The Use of Neural Networks to Improve the Recognition Accuracy of Explosive and Unvoiced Phonemes in Uzbek Language» v Information Communication Technologies Conference (ICTC), Nanjing, China, 2020.

8. Musaev M. M., Raximov M. F. «Algoritmbi parallelnoy obrabotki rechevbix signalov,» Vestnik TUIT, t. 2, № 46, pp. 2-13 str., 2018[In Russian].

9. M.M. Musaev, U.A. Berdanov, K.E. Shukurov, «Hardware and software solution signal compression algorithms based on the Chebyshev polynomial» International Journal of Information and Electronics Engineering, t. Vol. 4, № No. 5, pp. pp. 380-383, 2014.

i Надоели баннеры? Вы всегда можете отключить рекламу.