Научная статья на тему 'AUDIOMATNLAR KONTEKSTI VA ULARNING TIPOLOGIYASI'

AUDIOMATNLAR KONTEKSTI VA ULARNING TIPOLOGIYASI Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
1
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
audio korpus / audiokontekst / audiomatnni saralash / audiomatnlar hajmi / audiomatnlar xronologiyasi.

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Urazaliyeva Mavluda Yangiboyevna

Bugungi kunda amaliy kompyuter lingvistikasi doirasida keng imkoniyatlar yaratilmoqda. Jumladan, speech recognition uchun zarur bo‘lgan audio korpus imkoniyatlari til korpuslarida faol qo‘llanilib, matnlarning ovozli tarjimasi sifati oshirilmoqda. Maqolada jahon va turkiy tilllar doirasida yaratilgan korpuslar interfeysi, hajmi va yo‘nalishi o‘zaro qiyoslanib, o‘zbek tili korpusida yaratilishi ko‘zda tutilgan audio korpusning dasturiy ta’minotida muhim ahamiyatga ega bo‘lgan audiomatnlar va ularning tipologiyasi haqida so‘z boradi.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «AUDIOMATNLAR KONTEKSTI VA ULARNING TIPOLOGIYASI»

AUDIOMATNLAR KONTEKSTI VA ULARNING

TIPOLOGIYASI

Urazaliyeva Mavluda Yangiboyevna

O'zbekiston Milliy universiteti mustaqil izlanuvchisi (PhD) https://doi.org/10.5281/zenodo.13945303

Annotatsiya. Bugungi kunda amaliy kompyuter lingvistikasi doirasida keng imkoniyatlar yaratilmoqda. Jumladan, speech recognition uchun zarur bo'lgan audio korpus imkoniyatlari til korpuslarida faol qo'llanilib, matnlarning ovozli tarjimasi sifati oshirilmoqda. Maqolada jahon va turkiy tilllar doirasida yaratilgan korpuslar interfeysi, hajmi va yo 'nalishi o'zaro qiyoslanib, o'zbek tili korpusida yaratilishi ko'zda tutilgan audio korpusning dasturiy ta'minotida muhim ahamiyatga ega bo'lgan audiomatnlar va ularning tipologiyasi haqida so'z boradi.

Kalit so'zlar: audio korpus, audiokontekst, audiomatnni saralash, audiomatnlar hajmi, audiomatnlar xronologiyasi.

Аннотация. Сегодня в рамках прикладной компьютерной лингвистики создается широкий спектр возможностей. В частности, языковые корпуса активно используют возможности аудио корпуса, необходимые для распознавания речи, и повышают качество голосового перевода текстов. В статье сравниваются интерфейс, размер и ориентация корпусов, созданных в рамках мировых и турецких языков, а также говорится об аудио текстах и их типологии, которые важны в программном обеспечении аудио корпуса, который планируется создать на узбекском языке.

Ключевые слова: аудио корпус, аудио контекст, сортировка аудио текстов, объем аудио текстов, хронология аудио текстов.

Abstract. Today, a wide range of possibilities is being created within the framework of applied computational linguistics. In particular, language corpora actively use the capabilities of the audio corpus necessary for speech recognition, and improve the quality of voice translation of texts. The article compares the interface, size and orientation of the enclosures created within the framework of the world and Turkish languages, and also talks about audio texts and their typology, which are important in the software of the audio corpus, which is planned to be created in the Uzbek language.

Key words: audio corpus, audio context, audio text sorting, volume of audio texts, chronology of audio texts.

Kirish.

Ovozli matnlarga asoslangan korpuslar va dasturlar bugungi kunga kelib kundalik hayotda muhim ahamiyatga ega. Qolaversa maishiy jihozlarni masofaviy boshqarishda, bolalar nutqini rivojlantirishda, nutqiy savodxonlikni baholashda ovozli dastur va korpuslar keng qo'llanilmoqda. Audio korpus yaratishda so'zlar ham morfologik tahlil qilinadi, ham urg'u so'zning qaysi qismiga tushishi hisobga olinadi. Audio korpus yaratishda korpusga kiritilishi ko'zda tutilgan audiomatnlar turli xil bo'lishiga harakat qilinadi, hamda uning lingvistik ta'minoti hajmi hisobga olinadi.

Mavzuga oid adabiyotlarning tahlili (Literature review)

Korpusning paydo bo'lishidan hozirgacha uni rivojlantirish to'xtab qolmagan. Birinchi bosqich: kompyuter asrigacha bo'lgan davrda ham turli kartotekalar yordamida korpusga lingvistik baza qilingan. Ikkinchi bosqich esa kompyuter asri korpuslari davri. Kompyuter asrida esa ular elektron shaklga kiritildi, dasturlashtirildi[1].

Amaliy jihatdan esa korpus lingvistikasiga XX asrning 60-yillarida Braun korpusi asoschilari tomonidan asos solingan. Braun Korpusi amerika-inglizcha matn namunalarining elektron to'plami bo'lib, turli janrlardagi birinchi yirik tuzilgan korpusdir[2]. Ushbu korpusda kundalik tildagi so'z turkumlarining chastotasi va tarqalishi bo'yicha ilmiy tadqiqotlar uchun birinchi marta qo'llangan.

Korpusdan tadqiqot uchun erkin foydalanish an'anasini ana shu korpus boshlab bergan. Bu korpus asosida 1969-yilda "Amerika meros lug'ati"ga (American Heritage Dictionary) asos solingan[3].

Odatda og'zaki til korpusi tasodifiy yoki rejalashtirilgan nutqning transkripsiyalarini o'z ichiga oladi. Masalan, yangiliklar yoki hikoyalar va dialoglar. Ular fonologiya, suhbat tahlili va dialektologiya kabi lingvistik tadqiqotlarning har xil turlari uchun bebaho manbadir. Bunday korpuslar puxta tanlangan va ijtimoiy-demografik metama'lumotlarga boydir. Bunday jamlanmalardan biri CLARIN infratuzilmasi bo'lib, u 148 ta suhbat korpusini o'z ichiga oladi[4]. Ulardan 134 tasi og'zaki yoki spontan nutqning ikkala transkripsiyasini va tegishli yozuvlarni, 14 tasida esa faqat transkripsiyalarni o'z ichiga oladi. Aksariyat korpuslar bir tilli va quyidagi tillarni o'z ichiga oladi: arab, chex, golland, eston, fin, fransuz, nemis, venger, italyan, nepal, norveg, polyak, sloven, ispan va shved. Aksariyat hollarda korpusni to'g'ridan to'g'ri milliy bazalardan yuklab olish yoki ulardan foydalanish oson onlayn qidiruv tizimlari orqali so'rash mumkin. Shuningdek ular teglangan, ularning ko'pchiligi nutq korpusiga xos belgilarga ega, masalan, fonemik va prosodik izohlarga. Qolaversa bu yerda siz analog lentalar va qo'lda yozilgan xulosalardan tortib raqamli yozuvlargacha, jumladan, raqamli transkriptlar, ma'ruzachi tayinlash/tanib olish, ovozdagi ohang darajasi, nutq tezligi va boshqalar haqida ma'lumot topishingiz mumkin.

Turkologiyada korpusshunoslik sohasi turkiy tillar bo'yicha ilmiy tadqiqotlarda rivojlanib kelmoqda. Turk tili korpusi bo'yicha M.Aksan, D.Zeyrek, K.Oflazar, U.Özge[5]; boshqird tili bo'yicha L.A.Buskunbayeva, Z.Sirazitdinov[6]; xakas tili bo'yicha A.Sheimovich; tatar tili bo'yicha J.Suleymanov, A.Gatiatullin, O.Nevzorova, R.Gilmulin, B.Hakimov[7]; qrim-tatar tili bo'yicha L.Kubedinova hamda tuva tili bo'yicha A.Salchak[8] kabi ko'plab olimlar izlanishlar olib borganlar.

Tadqiqot metodologiyasi (Research Methodology)

Manbalarga ko'ra 1990-yilga kelib dunyo tillarining kompyuter tahliliga mo'ljallangan 600 ga yaqin korpusi borligi aniqlangan[1]. Dunyoda Multimediyali rus tili korpusi (MYPKO), Yevropa Ittifoqi korpusi asosida ko'ptilli korpus (ECI/MCI), Ingliz milliy korpusi (BNC)larda mavjud audiokorpuslar yaratilgan. Ular orasida mashhur yozuvchi va shoirlarning mualliflik korpuslar ham mavjud. A.P.Chexov, U.Shekspir, Dante, A.S.Pushkin kabilarning ijodiga bag'ishlangan mualliflik korpuslaridan audiokorpuslar ham o'rin egallagan.

Istalgan tildagi audiokorpusni yaratishda, avvalo, barcha uslublardagi katta hajmga ega bo'lgan elektron manba, ularning audiomatni bo'lishi kerak. Uning interfeysida izlash buyrug'i yosh, jins, millat, davr va boshqa jihatlar bo'yicha qidirish imkoniyati mavjud. Bunday korpuslar tilshunoslikning turli sohalarida xususan, lingvodidaktika, qiyosiy tilshunoslik, tarjima sohalarda katta yordam beradi. Zero, xususiy auditoriyaga tegishli audiomatn foydalanuvchilar uchun juda qulay va tilni o'rganing samarali usuli hamdir.

Tahlil va natijalar (Analysis and results)

Dunyo tilshunosligida korpus yaratishning lingvistik, matematik va dasturiy jihatlari olimlar tomonidan qilingan bir qancha ishlarda o'z ifodasini topgan [9]. Chunonchi, rus va ingliz

tillari bo'yicha korpus lingvistikasi turli sohalar kesimida xorijiy olimlar tomonidan ham turkologiyada korpus lingvistikasi bo'yicha ilmiy tadqiqotlar olib borilgan.

Zamonaviy Amerika ingliz tili korpusi (COCA) foydalanish bepul bo'lgan ingliz tilidagi eng katta korpusdir[1]. http://corpus.byu.edu/coca sayti orqali foydalanish mumkin. Bu korpus 2008-yilda M.Devis tomonidan Brigham Young universitetida yaratilgan. 2019-yil statistikasiga ko'ra COCA hajmi 1990-yildan 2017-yilgacha mavjud bo'lgan matnlardan olingan bo'lib, unda og'zaki uslubdagi suhbatlar, badiiy adabiyot, ommabop jurnallar, gazetalar va ilmiy adabiyotlardan foydalangan holda 560 million so'zni tashkil etdi. Bu korpus har ikki yilda tahrirlanadi.

Sharqiy Armaniston Milliy Korpusi(EANC) ni ishlab chiqish Boshqird davlat universitetining Hisob filologiyasi laboratoriyasi xodimlari tomonidan Rossiya Fanlar akademiyasi Tilshunoslik instituti Jahon she'riyati lingvistik tadqiqotlar markazining axborot va ma'naviy yordami bilan amalga oshiriladi. Konsultativ yordam va loyihani har tomonlama qo'llab-quvvatlash korpus a'zolari tomonidan amalga oshiriladi. Foydalanuvchiga ko'rsatilgan matnlardagi so'zlar rus tiliga tarjimaga ega bo'lib, bu tizim bilan nafaqat boshqird tilida so'zlashuvchilari, balki umumiy filologlar, versifikatorlar va lingvist-tipologlar uchun ham ishlash imkonini beradi. So'z shakllarini grammatik tahlil qilish avtomatik ravishda amalga oshiriladi.

Shunisi ahamiyatliki, ovozli matn korpusining lingvistik bazasi muayyan yozma matnni o'qish natijasida yaratiladimi yoki televideniye, jonli muloqot, radiodagi diolog yoki monologlardan tuziladimi degan masala birlamchi sanaladi. Shuningdek, audiomatnni transkripsiya qilish va standart tilda raqamlashtirish eng muhim bosqich sanaladi. Og'zaki nutqning etnografik ma'lumotlarni metama'lumot sifatida berish ham muayyan darajada asosiy talablardan biri. So'zlovchining qaysi hududga tegishli ekanligi, jinsi, yoshi, dialekti, kasbi bularning hammasi audiomatnni korpusga kiritishda bosh mezon sanaladi.

O'zbek tili elektron korpusini yaratish jarayonida xalqaro miqyosda korpus lingvistikasi bo'yicha amalga oshirilgan ishlarni o'rganish va ularning tajribasini o'zbek tilining elektron korpusini yaratishga joriy qilish dolzarb vazifalardan hisoblanadi[10]. Bir tilli korpusda til varianti va shevalar bir-biriga qarama-qarshi qo'yilsa, ikki va ko'p tilli korpus bir mavzu doirasida turli tilda yozilgan matnlar majmuidan iborat bo'ladi. Masalan, malum ilmiy muammo borasida turli davlatda turli tilda o'tkazilgan konferensiya materiallarini qamrab olishi mumkin. Ko'p tilli korpuslar, odatda, tarjimonlar tomonidan foydalaniladi. Ko'p tilli korpusning yana bir ko'rinishi original matn va tarjima matndan iborat bo'ladi. Korpusning ushbu turi qiyosiy chog'ishtirma tadqiqot olib borishda, tarjima nazariyasi hamda kompyuter tarjimasini o'rganishda juda muhim manba bo'lib xizmat qiladi[11].

N.Abdurahmonovaning "O'zbekcha matnlarni ovozlashtirish dasturining lingvistik ta'minotini ishlab chiqishda ayrim masalalar tadqiqi" nomli maqolasida so'z turkumlari, tinish belgilari, arab va rim raqamlarini yozish va o'qishda uchrovchi bir qator kamchiliklar sifatida keltiriladi. Bunda bazaga ma'lumot kiritishda matnning qaysi bandida chiziqcha, qaysi birida tire ekanligi va -inchi qo'shimchalariga ham e'tiborli bo'lish kerak. Yaratiladigan dastur esa buni tushunib olishi lozim. Tinish belgilari yozilgan paytda qo'yiladigan belgilar ovozli matnda o'qilmaydi. O'zbekcha matnlarni ovozlashtirish dasturining har qanday o'zbek tilidagi matnlarni hech qiyinchiliksiz o'qib berishda uning lingvistik ta'minotining qay darajada muakammal ishlab chiqilgani katta ahamiyatga egadir. Shuningdek, o'zbek tiliga boshqa tillardan, asosan, rus tili va u orqali boshqa tillardan o'zlashgan ruscha internatsional so'zlarni tadqiq etish va bunday so'zlarni dastur lingvistik ta'minotiga kiritish masalalarini o'rganish vazifasi ham oldimizda

ko'ndalang turibdi. Boshqa tillardan o'zlashgan so'zlarning talaffuzi o'zbek tili so'zlari talaffuzidan farq qilgani uchun ularning audio formatdagi va yozma shaklini lingvistik ta'minotga kiritish dasturning bunday so'zlarni xatosiz o'qishiga imkon yaratadi.

Iste'moldan chiqish xavfi ostiga kelib qolgan tillar uchun ularning elektron bazasi va korpusini yaratish, shu tilga taalluqli bo'lgan ilmiy va badiiy adabiyotlar yillar davomida asrashga, ular ustida bir qancha ilmiy ishlar qilishga imkon beradi.

Ma'lumotlar bazasida berilgan so'zlar orfografik va orfoepik jihatdan to'g'riligi hisobga olinishi kerak. Ma'lumki o'zbek tilida so'zlarda urg'u ko'chib yuradi. Shularni hisobga olib imloviy va izohli lug'atlar yordamida o'zbek tilining urg'uli bazasi uchun lingvistik ta'minot yaratilmoqda:

Cyrillic uzbek word Latin uzbek word Urgu

а a á

абад abad ábad

абадий abadiy ábadiy

абадий-бокий abadiy-boqiy ábadiy-boqiy

абадийлаш abadiylash ábadiylash

абадийлаштир abadiylashtir ábadiylashtir

абадийлаштирил abadiylashtiril ábadiylashtiril

абадийлаштириш abadiylashtirish ábadiylashtirish

Sanab o'tilganlardan tashqari korpus ichida subkorpuslar ham ishlab chiqilmoqda: parallel, mualliflik, lingvistik, ta'limiy korpus va boshqalar. Lingvistik resurslar qismida esa etimologik lug'at, sinonim lug'at, inglizcha-o'zbekcha fe'lli frazemalar, terminlogik lug'atlar mavjud.

Yuqoridagi kabi korpuslar yaratishda kattagina ma'lumotlar bazasi, izchillik, xronologik ketma-ketlik juda zarur. Qolaversa, so'nggi yillar mobaynida qog'oz materiallar kamayib ketayotganligi tufayli raqamli texnologiyalar asosida elektron korpus yaratish bu mas'uliyatli ish.

"Korpus" atamasi odatda matnlar to'plamini anglatadi. Korpusning vaqt o'tishi bilan hajmi va tarkibi o'zgarishi mumkin, ammo bu o'zgarishlar uning tuzilishiga ta'sir qilmasligi kerak. Ana mukammal ko'rinish korpusning reprezentativligini belgilab beradi. Shunga ko'ra har qanday bolatda reprezentativlik doimiy muammolardan bir bo'lib qoladi. Yaratilayotgan korpus uchun lingvistik ta'minot yaratishda hajm, mazmun, matnlarni saralash va xronologiya hisobga olinishi zarur.

Hajm muammosi XX asrning 6G-7G-yillarida chastotali lug'at yaratish jarayonlarida yaqqol yuzaga chiqqan. Dastlabki korpuslarning hajmi 1 mln so'z birliklaridan iborat bo'lib, Braun korpusi, Lankaster-Oslo-Bergen korpusi va L.N.Zasorina boshchiligidagi Rus tili chastotali lug'ati korpusida hajm muammosini uchragan[1]. Bunday holatlarda so'zning turli shakllarini ham kiritish kerakligi hisobga olingan va keyinchalik hajmi 100 mln so'z atrofida bo'lishi mumkinligi kiritilgan. lekin tilni har tomonla o'rganish uchun bu kam edi. Bugunga kelib korpus hajmi milliardlarga yetishi mumkin. bu esa tilni turli aspektlarda o'rganishga xizmat qiladi.

Xulosa va takliflar (Conclusion/Recommendations)

O'zbek tili milliy korpusini yaratish uchun ham, avvalo, juda katta hajmda turli mavzularga doir matnlarni jamlab olish lozim bo'ladi. Misol uchun tilda mavjud uslublarga doir matnlar tanlab olinadi. Jumladan, badiiy matnlar, ilmiy matnlar, rasmiy matnlar, publisistik

matnlar, so'zlashuv uslubiga doir matnlar. O'zbek tilida speech recognitionni rivojlantirishda, bolalar va kattalar uchun mo'ljallangan til o'rgatuvchi dasturlarni yaratishda audio korpus va uning sifatli lingvistik ta'minoti juda muhim. Qolaversa badiiy matnlardan iborat adabiyotga oid korpus yaratish yoki mualliflik korpuslarini yaratish birmuncha oson. Shuningdek matnni ovozlashtirish imkoniyati mavjud bo'lsa foydalanuvchining tinglash ko'nikmasi ham rivojlanib boradi. Tilshunos o'qituvchilar va tilshunoslikka qiziquvchilar tomonidan topshirilishi mumkin bo'lgan til imtihonlarini baholashda va bunday sinovlarni o'tkazisha audio korpuslar salmoqli o'ringa ega bo'ladi. Shuningdek ko'plab korpuslarda bir xillikni uchratish mumkin, tabiiyki bunday korpuslar yaratish tilning o'zgarib borishini kuzatib turishda foydali.

Umuman olganda, audio korpuslar ta'limga ayniqsa, maktab yoshidagi bolalar nutqini kuzatib borishda ham yuqori samaradorlikka erishishga yordam beradi. Sababi til ijtimoiy hodisa sifatida doimiy ravishda o'zgarib turadi, qaysidir so'zlar neologizm sifatida kirib kelsa, ba'zilari esa tarixiy so'zlarga aylanadi. Bu jarayonni esa multimediali korpus orqali bevosita kuzatib borish mumkin. Ko'rinib turibdiki, korpus nafaqat soha kishilarning, balki tilni rivojlantirishda umummilliy masala hisoblanadi.

Foydalanilgan adabiyotlar

1. Захаров В.П. Корпусная лингвистика: Учебник для студентов направления «Лингвистика». 2-е изд., перераб. и дополн., - СПб.: СПбГУ. РИО. Филологический факультет, 2013.

2. Oflazer K. Two-level Description of Turkish Morphology. Literary and Linguistic Computing, — Vol. 9, № 2, — 1994. - P.165.

3. Altintas K., Cicekli I. A morphological analyzer for Crimean Tatar // Proceedings of the 10th Turkish Symposium on Artifi cial Intelligence and Neural Networks (TAINN'2001). — 2001. — P. 180-189.

4. Сиразитдинов З.А., Сиразитдинов Б.З. Корпусные проекты в башкирском языкознании. / Turklang 2013 international conference - C.59 Turklang 2013 international conference.

5. Suleymanov D., Gilmullin R., Gatauillin Morphological analysis system of the Tatar language based on the two-level morphological model / Turklang 2017. Kazan, 2017. — P. 6-26

6. Abduraxmonova N. Mashina tarjimasining lingvistik ta'minoti. Monografiya. Toshkent, 2018. - 175b.

7. Abduraxmonova N. Kompyuter lingvistikasi. Toshkent, 2021. - 394 b.

8. Пулатов А.К., Жураева Н.В. Разработка формальной модели грамматики узбекского языка //Узбекский математический журнал «Фан». -Ташкент, 2002.- №1. -С. 47-54.

9. Abduraxmonova N. Kompyuter lingvistikasi. Toshkent, 2021. - 395b.

10. http://turkic.apertium.org

11. Abduraxmonova N. Kompyuter lingvistikasi. Toshkent, 2021. - 395b.

12. Abduraxmonova N. O'zbek tili elektron korpusining kompyuter modellari. Monografiya. Toshkent, 2021 - 21b.

13. https://uzbekcorpus.uz/

14. Abduraxmonova N.Z., Urazaliyeva (http://uzbekcorpus.uz/) og'zaki matnlar masalalari. Academic Research

M.Y. O'zbek tili elektron korpusida korpusini yaratishning nazariy va amaliy in Educational Sciences. 2022

http://www.ares.uz/uz/maqola-sahifasi/ozbek-tili-elektron-korpusida-httpuzbekcorpusuz-ogzaki-matnlar-korpusini-yaratishning-nazariy-va-amaliy-masalalari

15. https://varieng.helsinki.fi/CoRD/corpora/BROWN/

16. https://www.ahdictionary.com/

17. https://www.clarin.eu/

18. http://modmorph.turklang.neg/uz/statistics

19. https://snd.gu.se/en/catalogue/study/ext0071

20. https://ruscorpora.ru/

21. https://factored.ai/2021/12/14/multilingual-spoken-words-corpus-50-languages-and-over-23-million-audio-keyword-examples/

22. Abduraxmonova N.Z. Mashina tarjimasining lingvistik ta'minoti. - T., 2018.

23. https://en.wikipedia.org/wiki/British National Corpus

i Надоели баннеры? Вы всегда можете отключить рекламу.