Научная статья на тему 'LINGVISTIK KORPUS BAZALARI UCHUN LUG‘AT SHAKLLANTIRISHDA LINGVISTIK, TEXNIK VA KORREKTURAVIY TALABLAR'

LINGVISTIK KORPUS BAZALARI UCHUN LUG‘AT SHAKLLANTIRISHDA LINGVISTIK, TEXNIK VA KORREKTURAVIY TALABLAR Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
0
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
til kopusi / matn / matnlar bazasi / lingvistik baza / dastur / .docx / .pdf / fayl.

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Tirkashev Jasurjon Uktam O‘g‘li

Mazkur maqolada til korpuslariga matn kiritishda qo‘yiladigan texnik talablar va ularni bartaraf etish yo‘llari xususida so‘z boradi. Matn kiritishdagi texnik talablar ishlab chiqilgan, dasturiy amaliyotdan o‘tkazilgan va tavsiya sifatida ushbu maqola shakllantirilgan.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «LINGVISTIK KORPUS BAZALARI UCHUN LUG‘AT SHAKLLANTIRISHDA LINGVISTIK, TEXNIK VA KORREKTURAVIY TALABLAR»

YANGI O'ZBEKISTONDA O'ZBEK ADABIY TILINING RIVaJLANISH TENDENSIYALARI: MUAMMOLAR, YECHIMLAR, TAVSIYALAR" MAVZUSIDA RESPUBLIKA ILMIY-AMALIY ANJUMANI

2024-YIL 21-OKTABR

LINGVISTIK KORPUS BAZALARI UCHUN LUG'AT SHAKLLANTIRISHDA LINGVISTIK, TEXNIK VA KORREKTURAVIY TALABLAR

Tirkashev Jasurjon Uktam o'g'li

O'zbekiston Milliy universiteti mustaqil tadqiqotchisi(PhD) https://doi.org/10.5281/zenodo.13968575

Annotatsiya. Mazkur maqolada til korpuslariga matn kiritishda qo'yiladigan texnik talablar va ularni bartaraf etish yo'llari xususida so'z boradi. Matn kiritishdagi texnik talablar ishlab chiqilgan, dasturiy amaliyotdan o'tkazilgan va tavsiya sifatida ushbu maqola shakllantirilgan.

Kalit so'zlar: til kopusi, matn, matnlar bazasi, lingvistik baza, dastur, .docx, .pdf, fayl.

Abstract. This article discusses the technical requirements for entering text into language corpora and ways to address these requirements. The technical specifications for text input have been developed and tested through software implementation. This article has been formulated as a recommendation based on these findings.

Keywords: corpus, text, text base, linguistic base, program, .docx, .pdf, file.

Аннотация. В данной статье рассматриваются технические требования, предъявляемые к вводу текста в языковые корпусы, и способы их соблюдения. Разработаны технические требования к вводу текста, проведена программная апробация, и на основе этого сформирована данная статья в качестве рекомендации.

Ключевые слова: языковой корпус, текст, база текстов, лингвистическая база, программа, . docx, .pdf, файл.

Morfologik analizator tabiiy tilni qayta ishlashda qo'llaniladigan vosita bo'lib, tilning grammatik tuzilishi va lug'atini o'z ichiga olgan ma'lumotlar bazasidan foydalanadi. Morfologik analizatorlar turli tillar uchun turlicha ishlab chiqilishi mumkin va ko'pincha tilning grammatik tuzilishi va lug'atini o'z ichiga olgan ma'lumotlar bazasidan foydalanadi.

Uning ma'lumotlar bazasida o'zak so'zlar, kategoriyalar va boshqa grammatik xususiyatlar haqida ma'lumotlar mavjud. Morfologik analizatorlar matnlarni tushunish va qayta ishlash uchun juda muhim vositadir. Ushbu vosita matnlardagi so'zlarning morfologik belgilarini ya'ni so'zning ma'nosini aniqlash, so'z turini aniqlash, lug'at tarkibini aniqlash va shu kabi boshqa amallarni bajarish uchun ishlatiladi. Ularning lingvistik bazasini shakllatirishda bir qancha talablar mavjud. Ularga:

Imloviy(orfografiya) xatoliklar va uning natijasida yuzaga keladigan texnik muammolar. Tuzilgan lug'at imloviy jihatdan to'g'ri bo'lishi zarur. Agar kiritilayotgan so'z imloviy jihatdan noto'g'ri yozilgan bo'lsa, matnlar uchun muammo tug'dirmasligi mumkin, ammo foydalanilmaydigan ortiqcha so'zlar bazasining shakllanishiga asos bo'ladi. Ishlatilmaydigan so'zlar bazasi o'z navbatida dasturning qiyin ishlashiga olib keladi.

o' va g' harflarining turli shakllarda kelishi bilan bog'liq chalkashliklar va uning natijasida yuzaga keladigan texnik muammolar. Ma'lumki, lingvistik bazani shakllantirishda kompyuterning imkoniyatlari va o'zbek alifbosining harfiy shakllarini ham hisobga olishimiz kerak. Boshqa tillarning lotin yozuvidagi alifbosi bilan lotin grafikasiga asoslangan o'zbek alifbosidagi o' va g' harflarining texnik imkoniyatlari turlichadir. Biz bu harflardagi tirnoq belgisini turlicha-turlicha shakllarda ishlatamiz. Buni quyidagi jadvalda ham ko'rishimiz mumkin:

YANGI O'ZBEKISTONDA O'ZBEK ADABIY TILINING RIVOJLANISH TENDENSIYALARI: MUAMMOLAR, YECHIMLAR, TAVSIYALAR" MAVZUSIDA RESPUBLIKA ILMIY-AMALIY ANJUMANI

2024-YIL 21-OKTABR

№ o' harfining turli shakllarda kelishi g' harfining turli shakllarda kelishi

1. o'roq g'oz

2. öroq -

3. öroq -

4. oroq -

5. öroq -

6. oroq -

7. ôroq -

8. - goz

9. o'roq g'oz

10. o'roq g'oz

11. o'roq g'oz

Ko'rinib turibdiki, harflarni(o, o') ajratib turuvchi belgilardan turlicha turlicha foydalanar ekanmiz. Lekin vizual jihatdan bizga bularning hammasi tushunarli bo'lsa ham kompyuterga bu tushunarsiz hisoblanadi. Shuning uchun ularni kompyuter tushunadigan tilda ya'ni bir xil UNICOD tilida muvofiqlashtirishdir. Jadvalda berilgan eng oxirgi uchta bo'yalgan shakllar, e'tibor bergan bolsangiz, bir xil ko'rinishga ega. Tadqiqotlar shuni ko'rsatdiki, inson ko'zi bilan qaraganda umuman farq qilmaydigan ajratuvchi belgilar ham mavjud ekan. Ma'lumki, har bir belgini kompyuter maxsus kodlar orqali taniydi. Inson ko'zi bilan qaralganda bir xil shakllarga ega bo'lgan bu ajratuvchi belgilarning kodlari turli xil ekanligi tadqiqot jarayonidan ma'lum bo'ldi. O'zbek alifbosidagi ushbu harflarning tirmoq belgisi tepaga qaratilganligi bilan qonunan tasdiqlangan. Shuning uchun biz kiritadigan barcha lug'atlar, matnlar tarkibidagi so'zlardagi ushbu harflar ham qonunga, (1-modda. O'zbekiston Respublikasida lotin yozuviga asoslangan, quyidagi 26 harf va 3 ta harflar birikmasidan iborat o'zbek alifbosi joriy etilsin1.) ham kompyuter tiliga muvofiq bo'lishi kerak. Bizdan talab qilinadigan texnik muvofiqlik barcha ajratuvchi belgilarni birxillashtirishdir.

Probel (bo'sh joy) bilan bog'liq texnik talablar. Dasturning lingvistik lug'at bazasini shakllantirishda bir qator muhim omillarga e'tibor berish kerak. Xususan, lug'at kiritilayotgan vaqtda so'zning yoki so'z shakllarining turli xil joylarida ya'ni boshida, o'rtasida yoki oxirida probel (bo'sh joy) bo'lmasligi kerak. Quyidagi jadvaldan ham ko'rsak bo'ladi:2

*kitob So'zlar boshida probel (bo'sh joy) bo'lishi

Kitob* So'zlar oxirida probel (bo'sh joy) bo'lishi

O'rta*Osiyo Ajratib yoziladigan qo'shma so'zlar orasida probel (bo'sh joy) bo'lishi

tashkil*etmoq

tim*qora So'z orqali hosil qilingan sifat, ravish darajalari orasida probel (bo'sh joy) bo'lishi

Vatan*hisoblanadi Bog'lama bilan kelgan kesimlar orasida probel (bo'sh joy) bo'lishi

Agar yuqoridagi belgilar mavjud bo'lsa, dastur bu so'zni tanimay qoladi. Shuning uchun lug'at kiritayotgan vaqtimizda so'zlarning turli xil qismlarida ochiq joy ya'ni probel belgisini qoldirmasligimiz kerak. Amaliyot natijasida biz so'zlarning turli xil qismlariga ochiq joy ya'ni

1 Oliy Majlis Axborotnomasi, 1995-y., 6-son, 119-modda.l-moddaning matni O'zbekiston Respublikasining 1995-yil 6-maydagi 71-I-son Qonuni tahririda

2 Bo'sh joy (probil) belgisi shartli * belgisi bilan ko'rsatildi.

"YANGI O'ZBEKISTONDA O'ZBEK ADABIY TILINING RIVOJLANISH TENDENSIYALARI: MUAMMOLAR, YECHIMLAR, TAVSIYALAR" MAVZUSIDA RESPUBLIKA ILMIY-AMALIY ANJUMANI

2024-YIL 21-OKTABR

probel tashlab ko'rdik. Dastur oldindan kiritilgan aynan o'sha so'zlarning muqobil variantiga solishtirganda probili bor so'zlarni tekshirilmasdan matndan tashlab o'tib ketdi. Saytga kiritilayotgan ma'lumotlar ya'ni faqat lug'atlar probel belgili bo'lsa, kiritmaslik shartini kiritish taklifi orqali bu muammo bartaraf etildi. Natijada bir qator kiritilgan lug'atlardan aynan probel belgisi bo'lgan so'zlarni dastur avtomatik ravishda qabul qilmadi. Taklif etilgan usul orqali sayt bazasida ortiqcha chiqindi so'zlar bazasi paydo bo'lish ehtimolining oldi olindi.

Shu o'rinda shuni ham ta'kidlab o'tish kerakki, korpus dasturi tuzilayotgan vaqtda probel (bo'sh joy) belgisi bo'lmasligi shart qilib olingan. Bu shart, o'z navbatida, boshqa muammoni ham yuzaga keltirgan. Yuqoridagi jadvalda ko'rib turibmizki ajratib yoziladigan3 qo'shma so'zlar, sifat va ravish darajalarini hosil qilishda ishtirok etadigan daraja so'zlari, hisob so'zlar, bog'lamali kesimlar hisobga olinmagan. Bu muammoni bartaraf qilish uchun dasturning orqa tomonida lug'at bazasini probelli va probelsiz so'zlar bazasiga bo'lib, tekshirish jarayonini ham ikkiga bo'lishi kerak:

• Birinchi jarayon faqat probeli bor bo'lgan shakllar lug'ati bilan matnni tekshirish;

• Ikkinchisi esa oldingi jarayondan ortgan so'zlarni probelsiz lug'at bazasi orqali tekshirishsa, maqsadga muvofiq bo'ladi.

Takroriy so'zlar. Oldindan kiritish orqali lug'at yaratishda kiritiladigan so'zlarning takror holda kelishini oldini olishimiz kerak. Chunki ayni bir xil kodlangan so'zlarni dastur qabul qilmaydi. Shuning uchun kiritiladigan so'zlarning bir xil kelishiga yo'l qo'ymasligimiz kerak. Agar hajm jihatdan katta lug'atni tuzgan bo'lsak va uni bitta-bittalab tekshirmoqchi bo'lsak, juda ham ko'p vaqtni oladi. Ushbu lug'atimiz Excelda bo'lsa, lug'atlar qatorini belgilab,

данные (ma'lumotlar) menyusidan ^D (belgilangan sohada takrorlarni o'chirish) belgisi orqali muammoni bartaraf etamiz. Tadqiqotning sinov bosqichida yuqoridan aytilgan fikrga rioya qilgan holda ishlandi. Qoidalarga amal qilgan holda ishlagan bo'lsak-da, excel jadval dasturida qatorlar soni bir millionda tugar ekan. Tuzgan ro'yxatimizda so'zlar soni esa ikki yarim milliondan ortiq edi. Shunda tuzilgan lug'atni qismlarga ajratib, bir-biri bilan kombinatsiyalashtirib tekshirishimizga tog'ri keldi. Takrorlarga bog'liq bundan tashqari yana boshqa muammo ham bor. Boshqa foydalanuvchilar tomonidan oldin kiritgan lug'atlarida biz kiritmoqchi bo'lgan so'zlarning takrori borligini tekshirish. Amal jarrayonida bu muammoni qanday hal qilish borasida tajriba o'tkazdik. Tajribaga ko'ra keyin kiritmoqchi bo'lingan takroriy so'zlarni dastur qabul qilmas ekan. Bu muammoni bartaraf etish uchun oldin kiritilgan so'z olinadi, keyin kiritilmoqchi bo'lgan so'zni avtomatik ravishda o'chirish buyrug'i dasturga kiritildi. Bu buyruq faqat oldingi va keyingi o'xshashliklarni solishtiradi, ammo keyingi kiritiladigan lug'atlarning ichidagi takrorlarni avtomatik ravishda o'chirmaydi. Bu muamoni qanday bartaraf qilish xususida yuqorida to'xtalib o'tdik.

So'zlarni leksik bazaga kiritishda takrorlarga oid yana bir muammoni qayd etib ketishimiz lozim. Bu muammo omonimlar muammosidir. Kuzatishlar davomida shu narsa ma'lumki, omonninglarning aksariyati ot va fe'l so'z turkumlarining o'rtasida yuzaga keladi. Bu muamoni bir nechta yo'llar orqali hal qilsa bo'ladi.

Matnda ko'pincha fe'l so'z turkumi kesim vazifasini bajaradi. Tabiiyki, kesim gapning oxirgi qismida kelgani uchun undan keyin ishlatiladigan nuqta, so'roq, undov va ko'p nuqta belgilari bilan shu shakllarini birlashtirib teglash zarur va ushbu shakllarni fe'l so'z turkumiga tegishli deb belgilash kerak.

3 Vazirlar Mahkamasining 1995-yil 24-avgustdagi 339-son qarorining "Ajratib yozish" bandiga muvofiq

YANGI O'ZBEKISTONDA O'ZBEK ADABIY TILINING RIVOJLANISH TENDENSIYALARI: MUAMMOLAR, YECHIMLAR, TAVSIYALAR" MAVZUSIDA RESPUBLIKA ILMIY-AMALIY ANJUMANI

2024-YIL 21-OKTABR

So'z turkumlarining o'ziga xos morfologik tabiatidan kelib chiqib, omonim bo'lgan so'zlarga turkumlarining o'ziga xos qo'shimchalari qo'shilganda shu turkumdagi so'z deb olish zarur. Masalan, to'y so'zining ikki xil ma'nosi bor. Agar so'zga otning kelishik, egalik, yoki ko'plik qo'shimchalari qo'shiladigan bo'lsa, ot deb qaraladi. Fe'lning zamon, shaxs-son, mayl yoki xoslangan shakllari qo'shiladigan bo'lsa fe'l deb qaraladi. Taklif etilayotgan bu ikki yo'l omonimlarning leksik bazasiga kiritilmasdan umumiy bazaga kiritiladi.

Matn tarkibida kelib, birorta ham so'z turkumlarining o'ziga xos marfologik qo'shimchalarni olmagan shakllar uchun esa saytning orqa tomonida omonimlar lug'ati bazasini shakllantirish va tekshirilish bazasi ketma-ketligini ishlab chiqish zarur. Masalan, yuqorida keltirilgan to'y so'zining matnda hech qanday grammatik qo'shimchalarsiz kelgan shakli izohi bilan biriktirilgan holda matndan rang bilan alohidalanadi. Alohida rang bilan bo'yab qo'yilgan qism foydalanuvchi uchun izoh orqali turkumni taklif etadi. Matn mazmunidan kelib chiqib, foydalanuvchi turkumni belgilaydi. Masalan, to'y so'zining ikki xil razmetkasi ya'ni ot va fe'l so'z turkumlariga xos xususiyatlar taklif etiladi. Bu katta hajmli matnlarda qiyinchilik tug'dirishi mumkin. Ammo boshqa tillarning korpus saytlarda muammo to'liqligicha bartaraf etilmagan. Yuqorida taklif etilgan usullar omonimlik muammosini to'liq bartaraf etmasa-da, juda ham katta qismini hal eta oladi.

Korpusda turli manbalardan olingan ko'plab lingvistik ma'lumotlar mavjud bo'lib, bu tilning turli tomonlarini o'rganish imkonini beradi. Tadqiqotchilar til resurslarini ishlab chiqishda va tilni tahlil qila oladigan modellarni yaratishda sezilarli yutuqlarga erishdilar. Biroq taraqqiyotga qaramay, soha hali ham ko'plab muammolarga duch kelmoqda, jumladan, resurslarning mavjud emasligi va tilning standartlashtirilmaganligi, mustahkam korpus va standart orfografiyani ishlab chiqish kabi muammolar hali ham mavjud. Mashinani o'rganish algoritmlari va belgilanmagan ma'lumotlardan o'rganish mumkin bo'lgan chuqur o'rganish modellarini ishlab chiqish bilan sohaning kelajagi porloq ko'rinadi. Ushbu maqolada ko'rsatilgan muammolarning yechimlari ham kompyuter tilshunosligining tarqqiy topishidagi yo'lida yordam beradi degan umiddamiz.

FOYDALANILGAN ADABIYOTLAR

1. Копотев М.В., Мустайоки А. Современная корпусная русистика// Slavica Helsingiyensia 34.Инструментарий русистики: корпусные подходы. -Хельсинки, 2008. - С.13

2. Sh.Hamroyeva O'zbek tili mualliflik korpusini tuzishning lingvistik asoslari. Buxoro.2018

3. http://ruscorpora.ru

4. uzbekcorpora.uz Oliy Majlis Axborotnomasi, 1995-y., 6-son, 119-modda.1-moddaning matni O'zbekiston Respublikasining 1995-yil 6-maydagi 71-I-son Qonuni tahriridaMengliyev B., Sh. Xamroyeva. Lingvistik ta'minot vositalarining umumiy tavsifi hamda til korpusini yaratishdagi ahamiyati. O'zbek tili taraqqiyoti va xalqaro hamkorlik masalalari. - Toshkent, 2019. -P.17-20.Muhamedova S. Harakat fe'llari asosida kompyuter dasturlari uchun lingvistik ta'min yaratish. - Toshkent, 2006

5. Muhamedova S. Kompyuter lingvistikasi (metodik qo'llanma). - Toshkent: ToshDPU nashri, 2007. - 74

6. Nurmonov A. Lingvistik tadqiqot metodologiyasi va metodlari. - Toshkent: Akademnashr, 2010.- 115 b.

7. Po'latov A., Muhamedova S. Kompyuter lingvistikasi (o'quv qo'llanma). - Toshkent, 2009. -90 b.

i Надоели баннеры? Вы всегда можете отключить рекламу.