Научная статья на тему 'СЎЗ, МАТН, КОРПУС ЛИНГВИСТИКАСИ: НАЗАРИЯ ВА АМАЛИЁТ'

СЎЗ, МАТН, КОРПУС ЛИНГВИСТИКАСИ: НАЗАРИЯ ВА АМАЛИЁТ Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
101
19
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
тил корпуси / лингвистик маркировка / матнлар корпуси / автоматлаштирилган дастурий манба. / language corpus / linguistic markup / corpus of texts / automated software resource.

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Шарипова, Aзиза

Мазкур мақолада тилшуносликнинг истиқболли, фаол ривожланаётган соҳаси корпус лингвистикасининг назария ва методикаси ҳақида фикр юритилади. Мақолада маълум бир тарзда ташкил этилган ва элементлари матн бўлган тўплам матн корпусига хам алоҳида урғу берилган. Шунингдек, корпус лингвистикасининг функциялари, усуллари ҳамда босқичларининг хусусиятлари таҳлили ўрганилган. Корпус лингвистикасининг асосий тушунчаси электрон шаклда, тизимли, умумлаштирилган, тил белгилари билан таъминланган ва тил муаммоларини ҳал қилиш учун мўлжалланган, филологик жиҳатдан кенг қамровли лингвистик маълумотлар мажмуаси корпуснинг тавсифлари берилган.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

WORD, TEXT, CORPUS LINGUISTICS: THEORY AND PRACTICE

This article discusses the theory and methodology of corpus linguistics, a promising, actively developing field of linguistics. In the article, special emphasis is also placed on the text corpus, a set of elements that are organized in a certain way and whose elements are text. Also, the analysis of features, methods and stages of corpus linguistics is studied. Moreover, the basic concept of corpus linguistics is the description of a corpus (a philologically comprehensive set of linguistic data in an electronic form, organized, summarized, provided with language symbols and designed to solve language problems) are studied in this article.

Текст научной работы на тему «СЎЗ, МАТН, КОРПУС ЛИНГВИСТИКАСИ: НАЗАРИЯ ВА АМАЛИЁТ»

Oriental Renaissance: Innovative, (E)ISSN:2181-1784

educational, natural and social sciences www.oriens.uz

SJIF 2023 = 6.131 / ASI Factor = 1.7 3(1), Jan., 2023.

СУЗ, МАТН, КОРПУС ЛИНГВИСТИКАСИ: НАЗАРИЯ ВА АМАЛИЁТ

Азиза Шарипова

Му^аммад ал-Хоразмий номидаги Тошкент ахборот технологиялари университети, фил.ф.д. (PhD), доцент

АННОТАЦИЯ

Мазкур мацолада тилшуносликнинг истицболли, фаол ривожланаётган соуаси корпус лингвистикасининг назария ва методикаси уацида фикр юритилади. Мацолада маълум бир тарзда ташкил этилган ва элементлари матн булган туплам матн корпусига хам алоуида ургу берилган. Шунингдек, корпус лингвистикасининг функциялари, усуллари уамда босцичларининг хусусиятлари таулили урганилган. Корпус лингвистикасининг асосий тушунчаси электрон шаклда, тизимли, умумлаштирилган, тил белгилари билан таъминланган ва тил муаммоларини уал цилиш учун мулжалланган, филологик жиуатдан кенг цамровли лингвистик маълумотлар мажмуаси корпуснинг тавсифлари берилган.

Калит сузлар: тил корпуси, лингвистик маркировка, матнлар корпуси, автоматлаштирилган дастурий манба.

WORD, TEXT, CORPUS LINGUISTICS: THEORY AND PRACTICE

Aziza Sharipova

Tashkent University of Information Technologies named after Muhammad al-Khwarizmi, Doctor of Philological Sciences (PhD), Associate Professor

ABSTRACT

This article discusses the theory and methodology of corpus linguistics, a promising, actively developing field of linguistics. In the article, special emphasis is also placed on the text corpus, a set of elements that are organized in a certain way and whose elements are text. Also, the analysis of features, methods and stages of corpus linguistics is studied. Moreover, the basic concept of corpus linguistics is the description of a corpus (a philologically comprehensive set of linguistic data in an electronic form, organized, summarized, provided with language symbols and designed to solve language problems) are studied in this article.

Keywords: language corpus, linguistic markup, corpus of texts, automated software resource.

СЛОВО, ТЕКСТ, КОРПУСНАЯ ЛИНГВИСТИКА: ТЕОРИЯ И

ПРАКТИКА

SJIF 2023 = 6.131 / ASI Factor = 1.7

(E)ISSN:2181-1784 www.oriens.uz 3(1), Jan., 2023

Азиза Шарипова

Ташкентский университет информационных технологий имени Мухаммада ал-

Хоразми, д.ф.н.( PhD), доцент

AННОТАЦИЯ

В данной статье рассматриваются теория и методология корпусной лингвистики, перспективной, активно развивающейся области языкознания. В статье также особое внимание уделяется текстовому корпусу, набору определенным образом организованных элементов, элементами которого является текст. Также проводится анализ особенностей, методов и этапов корпусной лингвистики. Базовым понятием корпусной лингвистики является описание корпуса, филологически всеобъемлющего набора лингвистических данных в электронной форме, организованных, обобщенных, снабженных языковыми символами и предназначенных для решения языковых задач.

Ключевые слова: языковой корпус, лингвистическая разметка, корпус текстов, автоматизированный программный ресурс.

КИРИШ

Матнлар корпуси, корпус тилшунослиги деб аталмиш асосий тушунчалардан биридир. Корпус тилшунослиги 1960-йилларда Америка Кушма Штатларида тилшуносликнинг янги йуналиши пайдо булган ва Браун корпуси деб ном олган матнлар корпуси сифатида танилган. Ушбу корпус Америка босма нашрининг лингвистик хусусиятларини акс эттириш учун мулжалланган эди. У магнит ташувчи (дискета ёки катти; диск)га ёзиб олинган ва умумий хажми миллионга я;ин суздан иборат АКШ босма насрига оид турли матнларнинг беш юз икки минг (502 000) суз ва суз бирикмаларини уз ичига олган.

Браун корпуси бу сохддаги тадкикотлар учун катта имкониятлар эшигини очиб берди:

а) бошка шунга ухшаш корпусларни яратиш учун узига хос стандартга айланди;

б) корпус тилшунослигида янги фаннинг яратилишига туртки булди;

с) матнлар корпуси ва корпус тилшунослиги усулларини куллаш сохдси корпус яратувчилари кутганидан хам анча кенгрок ва ранг-баранг булиб чикди" [1].

МЕТОДОЛОГИЯ

Бугунги кунда купгина дунё тилларининг корпуслари яратилган ва яратилмокда. Масалан, славян тилларидан, аллакачон чех, поляк, болгар каби

SJIF 2023 = 6.131 / ASI Factor = 1.7

3(1), Jan., 2023

тилларнинг корпуслари мавжуд. Бу борада рус тили корпуси тадкикотлари хам оркада колмай келмокда. 1980-йилларда ривожлана бошлаган, 1990-йилларга келиб бироз ривожланишдан тухтаб колган булса-да, бу йуналиш хозирга келиб яна фаол ривожланишни бошлади ва сезиларли натижаларга эришилмокда, бу хакдаги маълумотларнинг аксарияти Интернет тармокларида мавжуд. [2] Корпус тилшунослиги, В.Захаров таърифига кура, компьютер технологияларидан фойдаланган холда лингвистик корпусларни (матн корпусларини) куриш ва улардан фойдаланишнинг умумий тамойилларини ишлаб чикиш билан шугулланадиган компьютер тилшунослигининг бир булимидир. [3]. М.Копотев ва А.Мустаёкилар хам, "Аслида корпуснинг (терминнинг) узи икки маънога эга" деб таъкидлашади. Биринчидан, корпусни яратиш назарияси ва методикаси; иккинчидан, корпус тадкикоти яъни корпус усуллари ёрдамида тил устида изланишлар олиб борилади [2]. Бу барча изланишлар узбек тили корпусини хам яратишда катта ахамиятга эга.

Биринчи навбатда корпусларни яратиш назарияси ва методикасини урганиш лозим. Корпус тилшунослиги одатда учта асосий усулдан фойдаланади:

1. корпусдан тил хакидаги маълумотларни автоматик равишда олиш;

2. ахборотни кайта ишлаш;

3. кайта ишланган маълумотларни текшириш ва талкин килиш.

Дастлабки икки кадам тулик алгоритмлаштирилган, учинчиси эса хозирда

мунозарали булиб колмокда [3].

В.Рыков, уз навбатида, ишнинг куйидаги боскичларини ажратиб курсатади:

1. нуткий фаолиятнинг тузилишини такдим этиш зарур;

2. корпусни тузиш учун кандай моддий чекловлар мавжудлигини аниклаш;

3. матнларни танлаш ва матн корпусини тузиш;

4. корпусни тузиш (компиляция килиш) [1].

Корпус тилшунослигининг асоси шундаки, тил бутунлай ижтимоий ходиса булиб, уни тажрибага асосланган маълумотлар, яъни нутк жараёнида тасвирлаш мумкин. Бу биз сузловчи ёки тингловчи узи айтган ёки эшитган сузларни, жумлаларни ёки матнларни канчалик тушунаётганини билмаймиз ёки баъзида билмасликка харакат килишимизни англатади. Тил кайд этилиши, тавсифланиши ва тахлил килиниши мумкин булган ижтимоий ходиса сифатида матнларда намоён булади. [6] Ички, овозсиз матнлар хам матндир, лекин уларни кузатиш мумкин эмас ва шунинг учун улар ижтимоий ходиса эмас. Матнларнинг аксарияти нуткий фаолият шаклида яъни, жамият аъзоларининг тил ёрдамидаги узаро муносабатлари сифатида содир булади [3]. Юкорида

SJIF 2023 = 6.131 / ASI Factor = 1.7

3(1), Jan., 2023

айтиб утилганидек, корпус лингвистикасининг асосий тушунчаси корпусдир. Корпуснинг бир нечта таърифлари мавжуд. Корпус лингвистикаси инглиз тилида сузлашувчи мамлакатларда пайдо булганлиги сабабли, биз биринчи навбатда инглиз тилида сузлашадиган илмий мухитда мавжуд булган таърифларни берамиз: In principle, any collection of more than one text can be called a corpus, (corpus being Latin for "body", hence a corpus is any body of text). But the term "corpus" when used in the context of modern linguistics tends most frequently to have more specific connotations than this simple definition. The following list describes the four main characteristics of the modern corpus.

1. Sampling and representativeness

2. Finite size

3. Machine-readable form

4. A standard reference. [4]

Матн корпуси - бу маълум бир тарзда ташкил этилган ва элементлари матн булган тупламдир. Корпусни ташкил этиш уни яратувчиси ёки фойдаланувчисининг прагматик максадларига караб хар хил булиши мумкин. Корпуснинг таркибий элементлари булган матнлар бутун адабий асарни ёки унинг бирон бир кисмини ифодалаши мумкин. ^оида тарикасида, корпус бутунлигича магнитли (машина) ташувчида ёзиб олинган ва бир жойда зич жойлаштирилган деб тахмин килинади [1].

В.Захаров матнларнинг лингвистик ёки тил корпусини маълум бир лингвистик муаммоларни хал килиш учун мулжалланган, катта, электрон шаклда такдим этилган, бирлаштирилган, тузилмали, белгиланган, филологик жихатдан кенг камровли тил маълумотлари туплами деб тушунади. [3]. Рус тилининг миллий корпусини яратувчилар корпусни куйидагича таърифлайдилар: Корпус - бу маълум бир тилдаги матнларнинг электрон шаклдаги тупламига асосланган ахборот-маълумотнома тизими. Миллий корпус айнан уша тилни мавжудлигини маълум бир боскичида (ёки боскичларида) ва хар хил жанрларда, услубларда, худудий ва ижтимоий турлар ва хоказоларда ифодалайди.

Бизнинг фикримизча, В.П.Захаровнинг таърифи, ушбу тушунчанинг барча хусусиятларини акс эттирувчи ва уни бир катор шунга ухшаш ходисалардан (масалан, электрон кутубхоналар) ажратиб курсатадиган энг макбул тарифдир. Шундай килиб, корпус - бу электрон шаклда такдим этилган, бирлаштирилган, тузилмали, тил белгилари билан таъминланган ва муайян тил муаммоларини хал килиш учун мулжалланган катта, филологик жихатдан кенг камровли

SJIF 2023 = 6.131 / ASI Factor = 1.7

3(1), Jan., 2023

лингвистик маълумотлар мажмуасидир. Лингвистик тадкикот корпуси яхлит восита сифатида икки асосий ташкил килувчига эга, хусусан:

1. Бевосита маълумотлар массиви (матнлар);

2. Корпус менеджери (ихтисослаштирилган кидирув тизими), бу маркировка (белгилаш ёки аннотация) асосида тадкикотчи учун зарур булган бирликларни бутун маълумотлар мажмуасидан танлаш имконини беради.

Лингвистик маркировка сузларга махсус кодлар беришни назарда тутади. Кодлар теглар сифатида хам танилган (инглизчадан таг - белги), тегларни сузларга нисбатлаш жараёни мос равишда теглаш (инглизча - таггинг) деб аталади. [3]. Маркировка канчалик куп ва хилма-хил булса, корпуснинг илмий ва маърифий ахамияти шунчалик юкори булади. Хрзирги вактда корпус таркибида булиши мумкин булган куйидаги белгилаш (маркировка) турлари шартли равишда ажралиб туради: лингвистик ва экстралингвистик (матнни форматлаш хусусиятлари); муаллиф хакидаги маълумотлар (исми, ёши, жинси, хаёт йиллари ва бошкалар); ва матн (номи, кайси тилда ёзилган, йили, нашр этилган жойи ва бошкалар). Белгилаш (маркировка)нинг лингвистик турлари орасида куйидагилар ажралиб туради:

1. Морфологик (гап булагининг белгисини, шу булакка хос грамматик категория белгиларини уз ичига олади).

2. Синтактик (синтактик тахлил натижасидир).

3. Семантик.

4. Анафорик.

5. Просодик (транскрипцияланган товушли нутк корпусида ургу ва интонацияни тавсифловчи белгилар кулланилади).

Белгилаш (маркировка) автоматлаштирилган дастурий манбалар ёрдамида амалга оширилади. Белгилаш (маркировка)нинг баъзи бир турлари учун автоматик тизимларни яратиш жуда кийин ва тизим яратиш ишининг асосий кисми кулда амалга оширилади. Бирок, морфологик ва синтактик тахлил учун одатда теглар(таггерс) ва парсерлар(парсерс) деб аталадиган турли хил дастурий воситалар мавжуд.

Бирок, ушбу тизимларнинг аксарияти кулда ишлашни талаб килади, чунки морфологик омонимия ва синтактик ноаниклик холатларида дастур тадкикотчига бир нечта ечимларни таклиф килади, ва тадкикотчи улардан тугрисини танлаб олади. Бирок, янги авлод корпуси ун миллионлаб сузларни уз ичига олади, шунинг учун инсон аралашувини рад этадиган, улар бажариши мумкин булган иш хажмини мустакил равишда бажарадиган тизимни ривожлантириш тамойили илгари сурилади. Ва хатто, чегарасиз булиши

SJIF 2023 = 6.131 / ASI Factor = 1.7

3(1), Jan., 2023

мумкин булган матнни белгилаш жараёнини тулик автоматлаштириш таклиф этилмокда. [3] Шундай килиб, белгилаш жуда куп вакт талаб киладиган жараён булиб, деярли барча боскичларда, айникса, белгилаш бирлиги машина "тушунадиган" хусусиятларга эга булмаган холларда инсон аралашувини талаб килади.

А.Шарипова уз маколасида тил урганишда корпус ва корпус лингвистикасининг умумий эмпирик куринишини яратишга харакат килган. Биринчи навбатда тилларни реал контекстда урганиш булган корпус лингвистикасига таъриф берган. XX-аср бошидан хозирги кунгача корпус лингвистикасининг умумий куриниши тасвирланган. Корпус лингвистикасидан фойдаланиш икки даврда жуда ухшаш эди, факат фарки шундаки, XX-аср бошларида хеч кандай компьютер ва технология ишлатилмаган. Шунингдек, корпус турларини, масалан, бир тилли ва параллел корпуслар мухокамаси килинган ва корпус адабиётининг ушбу сохасига киритилган корпус тиллари мисоллари куриб чикилган. Корпус лингвистикаси тилшуносликнинг амалий ва тадкикот сохаларида умумий тилшуносликнинг асосий йуналишларидан сунъий интеллект ва компьютер лингвистикасига айланганлиги хакида батафсил ёритган. [5, 7]

ХУЛОСА

Сунгги ун йилликларда компьютер технологияларининг фаол ривожланиши тадкикот ва таълим жараёнларини оптималлаштириш учун зарур шарт-шароитлар яратди. Компьютер технологиялари, биринчи навбатда веб-технологиялар лингвистика сохасидаги тадкикот ва амалий характердаги муаммоларни хал килиш воситаларини ишлаб чикиш имконини беради. Турли тадкикот ишлари учун талаб килинадиган хар хил турдаги маълумотларга тез кириш имконияти филолог-олимлар учун янги имкониятлар очади. Махсус тарзда белгиланган маълумотларни танлаш оркали тадкикот утказиш имконини берувчи манбалар - тил корпусига айланди. Улар пайдо булиши билан нуткий матнлар билан ишлаш имконияти кенгайди, махсус йуналишда корпус лингвистикаси - тилшуносликнинг матн корпусини ишлаб чикиш ва улардан фойдаланиш назарияси ва амалиёти билан шугулланадиган булими ажралиб чикди. Корпуслардан фойдаланишнинг учта асосий йуналиши мавжуд: филологик тадкикотлар, амалий иш турлари, укув жараёни. Тил корпусининг сифати унинг икки компоненти: маълумотлар хажми ва турли хил белгилашлар билан аникланади.

SJIF 2023 = 6.131 / ASI Factor = 1.7

3(1), Jan., 2023

REFERENCES

1. Рыков В. В.Тверской лингвистический меридиан.// Теоретический сборник. - Тверь, 1999. - С. 89-96.

2. Копотев М.В., Мустайоки А. Современная корпусная русистика / М. В. Копотев, А. Мустайоки // Инструментарий русистики: корпусные подходы. Slavica Helsingiensia, 34. Helsinki University Press, 2008. - С. 7-24.

3. Захаров, В.П. Корпусная лингвистика: учебно-методическое пособие / В.

4. П. Захаров. - СПб., 2005.

5. Tony McEnery, Andrew Wilson. Edinburgh University Press, 1996. 206 p.

6. Abdumanapovna, S. A. (2018, October). The contemporary language studies with corpus linguistics. In Proceedings of the 2nd International Conference on Digital Technology in Education (pp. 82-85).

7. Ибрагимова, Н. А. (2022). ТИЛШУНОСЛИКДА МАТН ТУШУНЧАСИНИНГ ТАДКИКИ ВА ТАДЛИЛИ. Oriental renaissance: Innovative, educational, natural and social sciences, 2(12), 1299-1304.

8. Bakhronova, D., & Khalikulovna, O. E. (2022). LINGUO-STYLISTIC ANALYSIS OF MEDIA HEADLINES IN ENGLISH AND UZBEK LANGUAGES. Conferencea, 5-6.

i Надоели баннеры? Вы всегда можете отключить рекламу.