Научная статья на тему 'GRAPHICAL MARKERS FOR AUTOMATED IDENTIFICATION OF BELARUSIAN INCLUSIONS IN A MIXED BELARUSIAN-RUSSIAN TEXT'

GRAPHICAL MARKERS FOR AUTOMATED IDENTIFICATION OF BELARUSIAN INCLUSIONS IN A MIXED BELARUSIAN-RUSSIAN TEXT Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
9
3
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЭЛЕКТРОННЫЯ МОЎНЫЯ РЭСУРСЫ / КОРПУСНЫЯ ТЭХНАЛОГіі / РАЗМЕТКА / ЛіНГВіСТЫЧНАЕ ЗАБЕСПЯЧЭННЕ / ГРАФіЧНЫ МАРКЁР / БЕЛАРУСКА-РУСКАЕ ДВУХМОЎЕ / БЕЛАРУСКАМОЎНЫЯ ЎКРАПЛЕННі / ЗМЕШАНЫ БЕЛАРУСКА-РУСКіЙ ТЭКСТ / ELECTRONIC LANGUAGE RESOURCES / CORPUS TECHNOLOGIES / ANNOTATION / LINGUISTIC SUPPORT / GRAPHICAL MARKER / BELARUSIAN-RUSSIAN BILINGUALISM / BELARUSSIAN INCLUSIONS / MIXED BELARUSIAN-RUSSIAN TEXT

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Stankevich A., Bubnovich I.

The linguostatistically defined complex of graphical markers for automated identification of Belarusian inclusions in a mixed Belarusian-Russian text is described. The algorithm of compiling the test corpora of Belarusian and Russian languages and the schemas of graphical markers are provided in the appendix to the article. The revealed complex of the graphical markers can be widely used as a component of linguistic support for creation of diverse full-text language resources in conditions of the Republic of Belarus.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «GRAPHICAL MARKERS FOR AUTOMATED IDENTIFICATION OF BELARUSIAN INCLUSIONS IN A MIXED BELARUSIAN-RUSSIAN TEXT»

УДК 81'33 + 004.6

ГРАФ1ЧНЫЯ МАРКЁРЫ ДЛЯ АУТАМАТЫЗАВАНАЙ 1ДЭНТЫФ1КАЦЫ1 УВАХОДЖАННЯ

БЕЛАРУСКАМОУНЫХ ФРАГМЕНТАУ У ЗМЕШАНЫ БЕЛАРУСКА-РУСК1 ТЭКСТ1

А.Ю. СТАНКЕВ1Ч (Гродзенск дзяржауны утверсгтэт Мя Я. Купалы)

канд. фтал. навук, дац. I.I. БУБНОВ1Ч (Гродзенск дзяржауны утверсгтэт Мя Я. Купалы)

На падставе лтгвастатыстычнага аналгзу вызначаецца комплекс граф1чных маркёрау-1дэнтыф1катарау уключэнняу беларускамоуных фрагментау у змешаны беларуска-русю тэкст. Прыводзяцца алгарытм вызначэння тэставых маавау для рускай i беларускай моу, а таксама схемы граф1чных маркёрау. Вызначаны комплекс графiчных маркёрау можа быць выкарыстаны для аутаматызацьп разметк беларускамоуных украпленняу пры стварэнш паунатэкставых электронных моуных рэсурсау.

Ключавыя словы: электронныя моуныя рэсурсы, корпусныя тэхналогй, разметка, лiнгвiстычнае забеспячэнне, графiчны маркёр, беларуска-рускае двухмоуе, беларускамоуныя украплент, змешаны беларуска-рускт тэкст.

Уводзшы. Традыцыйна лiчыцца, што на Беларус з даушх часоу развщцё беларускай лиаратурнай мовы адбываецца ва умовах бшнгазму щ шматмоуя. Вышкам гэтага з'яуляюцца шматлшя пазычанш з розных моу. Праблемы вызначэння пазычанняу, асноуных тэндэнцый ix засваення, асаблiвасцi ix семан-тычнай, фанетычнай i марфалагiчнай адаптацыi, а таксама шшыя пытаннi, звязаныя з узаемадзеяннем беларускай мовы з iншымi мовам^ закранаюцца у працах многix беларусюх i замежных навукоуцау. Ад-ным з першых даследавау асаблiвасцi беларускай мовы на уах яе узроунях, вызначыу i падау пералiк пазычанняу з розных моу Я.Ф. Карсю [1; 2]. Пытанш бiлiнгвiзму, полшнгазму i узаемадзеяння моу на Беларус у розныя часы даследавалiся М.Г. Булахавым [3; 4], А.1. Жураусюм [5], А.А. Гiруцкiм [6], Г.Ф. Вештарт [7] i iнш. У мнопх даследаваннях канца ХХ - пачатку ХХ1 стст. праблемы беларуска-рускага бiлiнгвiзму аналiзуюцца з пункту гледжання сацыялшгвктыю i псixалiнгвiстыкi. Сацыялапчны аспект узаемадачыненняу даследуецца Ю.Б. Караковым [8], Н.Б. Мячкоускай [9]. Знешнелшгвктычныя фактары улiчваюцца пры аналiзе моунай сiтуацыi у Беларусi М.1. Канюшкевiч [10; 11]. Як феномен беларускага грамадства Г.А. Цыхуном разглядаецца "трасянка" [12].

Шмат увагi надаецца навукоУцамi супастауляльнаму аналiзу рускай i беларускай моу, вызначаюц-ца ix аднолькавыя i адрозныя рысы [13 - 15]. Спець^ку бiлiнгвiзму у Беларуси своеасаблiвасць моунай сiтуацыi, а таксама функцыянаванне рускай мовы ва умовах руска-беларускага двухмоуя, фактары, што спрыяюць узаемапранiкненню гэтых блiзкароднасныx моу, аналiзуе В.Д. Старычонак [16]. Праблема узаемадзеяння моу закранаецца i у артыкуле В.П. Маеускай, Р.С. Сiдарэнка [17]. Mi адзначаецца, што «блiзкасць моу стварае шюзю падабенства, а лёгкасць узаемаразумення, адэкватнасць разумення, нягле-дзячы на наяунасць у мауленнi шматлшх адxiленняу ад нормау, гэту шюзда падтрымлiваюць i паглыб-ляюць» ([17, с. 12]; пераклад наш).

Варта адзначыць, што у многix працах прасочваюцца асаблiвасцi узаемадзеяння памiж беларускай i рускай мовамi на розных моуных узроунях. Так, пытанш фанетычнай штэрферэнцыи разглядаюца Л.П. Новiкавай [18], акцэнталапчныя адметнасцi усходнеславянсшх моу аналiзуюцца Л.М. Вардамацкiм [19]. А.А. Мятлюк вызначае асаблiвасцi маулення бiлiнгва [20].

Асаблiвую цiкавасць навукоуцау выклiкае марфалапчны узровень, яш даследуецца у шэрагу прац [21; 22], прасочваюцца адрозненш памiж рускай i беларускай мовамi у працэсе ix гiстарычнага развщця, асаблiвая увага надаецца фармiраванню адрозненняу на граматычным узроУнi [23; 24], звяртаецца увага на адметнасцi часцш мовы, напрыклад, 1.А. Кiсялёу аналiзуе часцiцы [25], Л.Г. Машчэнская даследуе катэгорыю роду назоунiкау у рускай i беларускай мовах i уплыу беларускай мовы на мауленне беларусау, якiя гавораць па-руску [26].

Супастауленне рускай i беларускай моу на лекйчным узроунi робiцца многiмi даследчыкамк асаблiвасцi узаемадзеяння i узаемауплыву разглядаюцца С.М. Грабчыкавым [27], А.Я. Мixневiчам i А.А. Гiруцкiм [28], закранаюцца Б.Ю. Норманам [29]. Аналiзу фармавання i станаулення лексiкi усходнеславянсшх моу прысвечаны працы У.В. Анiчэнкi [30], 1.С. Козырава [31]. Сштакйчныя асаблiвасцi рускай i беларускай моу вызначаюцца i парауноуваюцца В.1. Баркоусшм [32], М.1. Канюшкевiч [33; 34], П.П. Шубам [35]), Л.М. Чумак [36].

1 Падрыхтавана у межах праекта Дзяржаунай праграмы навуковых даследаванняу «Эканомка i гумаштарнае развщцё беларускага грамадства» на 2016 - 2020 гг. (дагавор № А70-16 ад 04.01.2016).

Праблеме узаемадзеяння беларускай i рускай моу на Беларусi прысвечана праца калектыву аута-рау «Русский язык в Белоруссии» [37], у якой падкрэстваецца неабходнасць параунальна-тыпалапчнага апiсання нацыянальнай i рускай моу для ажыццяулення уах прыкладных работ, звязаных з нацыянальна-рускiм двухмоуем [37, с. 9], а таксама выяулення мiжмоунай iнтэрферэнцыi [37, с. 10], якая назiраецца у Беларусi. Пры гэтым звяртаецца увага на тое, што «ва умовах нацыянальна-рускага двухмоуя <...> склалiся i рэальна iснуюць тыя асаблiвыя разнавiднасцi рускай мовы, галоунай адрознай рысай якiх з'яу-ляецца наяунасць у ix фанетычных, граматычных, лексiка-семантычных i стылiстычных падсiстэмах пэу-най сукупнасцi iншанацыянальныx элементау» ([37, с. 11]; пераклад наш). Навукоуцы вылучаюць «белорусский нациолект русского языка» [37, с. 12]. Аутарамi даследуецца не толью рэальная штэрфе-рэнцыя, але i «патэнцыяльная», пад якой разумеюцца памылю, якiя могуць быць прадбачаны, бо абумоу-лены разыxоджаннямi кантактуючых моу [37, с. 60]. Выяуляюцца i называюцца прычыны лекачнай iнтэрферэнцыi, адзначанай навукоУцамi, i яе вынш. Асноунай прычынай называецца поунае супадзенне лексiка-семантычныx i тэматычных груп слоу у рускай i беларускай мовах, пры яюм магчымы перанос лексем з адной мовы у другую пры мауленш на няроднай мове.

Таюм чынам, даследаванне узаемадзеяння беларускай i рускай моу мае працяглую псторыю, аднак на сённяшш дзень няма комплексных прац па аутаматызацьи пошуку беларускамоуных украплен-няу у рускамоуных тэкстах. Адметнасць нашага даследавання заключаецца у распрацоуцы алгарытму фармiравання тэставых масiвау дадзеных для беларускай i рускай моу, а таксама у вызначэннi графiчныx маркёрау для аутаматызаванай iдэнтыфiкацыi уваходжання беларускамоуных фрагментау у змешаны тэкст.

Асноуная частка. Мэтай нашага артыкула з'яуляецца вызначэнне мноства графiчныx маркёрау, наяунасць яшх дазваляе ажыццяуляць аутаматызаваную щэнтыфшацыю уключэнняу беларускамоуных фрагментау (словаформау i ix паслядоунасцей, у тым лiку i роуных абзацу) у змешаны тэкст. Пад змешаным тэкстам тут разумеем рускамоуны тэкст з беларускамоуныпш фрагментамi, пры гэтым доля рускай мовы можа быць роунай щ нязначна перавышаць долю беларускага. Таюм чынам, наша задача адрозшваецца ад задачы пабудовы гэсэра мовы (language guesser), г.зн. ушверсальнага дэтэктара мовы тэксту.

У працы мы уводзiм паняцце каэфщыента адрозшвальнай сты маркёра (далей - КАС). Мы прынялi наступныя патрабаваннi да тэставых маавау дадзеных, прыдатных для разл^ КАС:

- масiу адлюстроувае сiстэму словазмянення адпаведнай мовы;

- у мааве знятыя пауторы амаформау;

- масiу не утрымлiвае неаднаслоуных адзiнак;

- масiу утрымлiвае мiжмоУныя амонiмы (для пары руская - беларуская мова).

У адпаведнасщ з прынятымi патрабаваннямi мы вызначылi наступныя тэставыя масiвы:

- для рускай мовы: тэставы масiу аб'ёмам 2 436 182 словаформау, вызначаны на аснове разгорну-тага слоунiка А. А. Залiзняка ад М. Хагена [38] (далей - ЗХ);

- для беларускай мовы: тэставы маау аб'ёмам 1 091 225 словаформау, вызначаны на аснове лекака-семантычнай базы Беларускага N-корпуса [39] (далей - БН).

А. Вызначэнне маиву рускамоуных словаформау

Зыходныя дадзеныя: разгорнуты слоушк А. А. Залiзняка ад М. Хагена (рэдакцыя 2014 г.) [38]. Аб'ём 4 159 394 словаформы для 142 792 лем.

Зыходныя дадзеныя зменены наступным чынам:

- выключаны словаформы, яюя не ужываюцца (адзначаныя у слоУнiку М. Хагена зорачкай);

- выключаны неаднаслоуныя уваходы (а ведь, а именно, а не только что i г.д.);

- выключаны палi з дадзенымi марфалагiчнай разметкi i кодамi-iдэнтыфiкатарамi словаформау;

- дададзены амонiмы да беларусюх слоу з ё (да словаформау завез, лед, мед дададзены словаформы з узноуленай лiтарай ё: завёз, лёд, мёд i г. д.);

- дададзены адлюстраваныя у друкаванай версп слоУнiка А. А. Залiзняка [40] фiналi з ё (-чьё, -чьём; -вёшенький, ..., -вёшенькими; -аёшь(ся), -аёт(ся), -аём(ся), -аёт(ся), -аёте(сь); -вёшь(ся), -вёт(ся),-вём(ся), -вёт(ся), -вёте(сь); - юёшь(ся), -юёт(ся),-юет(ся), -юёте(сь) i т. п.), частотныя словаформы з ё (всё, всём, её, нём, своё, чём, чьё, чьём i нек. шш.), некаторыя частотныя пачатковыя сегменты з ё (четырёх-, трёх-, платёжн- i нек. шш.);

- зняты пауторы амаформау.

Аб'ём мааву (з мiжмоУнымi амаформам^: 2 436 182 словаформау.

Б. Вызначэнне майву беларускамоуных словаформау

Зыходныя дадзеныя: лекака-граматычная база беларускага N-корпуса (рэдакцыя 2016 г.) [39]. Аб'ём: 1 840 835 словаформау для 24 417 лем.

Зыходныя дадзеныя зменены наступным чынам:

- выключаны палi з дадзенымi марфалапчнай i акцэнталапчнай разметкц

- зняты пауторы амаформау.

Аб'ём мааву (з мiжмоУнымi амаформам^: 1 091 225 словаформау.

Прынцып прызначэння КАС маркёра таю: маркёр уключаем у слоушк, а яго КАС прытсваем значэнне 1, калi ipm (instances per million - 'частата на мшьён') адзiнак з гэтым маркёрам на БН большая щ роуная 100 (г. зн. 0,01% ад БН), а на ЗХ роуна 0; маркёр уключаем у слоушк, а яго КАС прытсваем значэнне 0,9, калi ipm адзшак з гэтым маркёрам на БН большая щ роуная 100, а на ЗХ менш або роуная 40 (г. зн. 0,004% ад ЗХ). У шшых выпадках мы праводзш даследаванне правага / левага акружэння маркёра, якое пашыралася на 1 альбо 2 амвалы управа / улева; у слоушк уключалi атрыманыя у вынiку даследавання акружэння пашыраныя маркёры, яюя не сустракаюцца на ЗХ i маюць на БН ipm большую Ш роуную 100 (калi пашыраныя маркёры мелi у сваiм складзе лiтару у або i, iм прызначалi КАС = 1, у шшых выпадках пашыраным маркёрам прызначалi КАС = 0.9). Абагульненне вышэйсказанага гл. у таблiцы 1.

Таблща 1. - Схема прызначэння КАС графiчным маркёрам

Тып маркёра Ipm на ЗХ Ipm на БН Значэнне КАС

Просты маркёр = 0 > 100 1

Просты маркёр < 40 > 100 0.9

Пашыраны маркёр = 0 > 100 1 (для маркёрау з i, у)

Пашыраны маркёр = 0 > 100 0.9

Пры вызначэнш мноства rpафiчных маркёрау-щэнтыфшатарау беларускамоуных фрагментау быу рэалiзаваны падыход «ад экспертных ведау»: прызначэннне КАС з апорай на тэставыя масiвы дадзеных маркёрам, якiя былi прапанаваны на падставе лшгвктычных крытэрыяу.

Адрозненнi памiж беларускай i рускай мовамi праяуляюцца у тэкстах на розных узроунях. Нiжэй прыведзены графемы i спалучэнш графем, якiя з пункту гледжання эксперта-лшгаста могуць быць патэнцыяльнымi маркёрамыдэнтыфшатарамц дадзены вынiкi аналiзу функцыянавання гэтых элементау на масiвах БН i ЗХ. Фармалiзаванае апiсанне графiчных маркёрау, што разглядаюцца у названым раздзеле, дадзена у таблiцы 2.

Таблща 2. - Схемы графiчныx маркёрау

№ радка Схема КАС

1 2 3

1 АБО (i (419126; 0), у (146026; 0)) 1

2 ПАСЛЯДОУНАСЦЬ (л1тара беларускамоунага алфав1та у любым рэпстры, апостраф, знак галоснага малой л1тарай) 1

3 АБО (ём1 (289; 0), ёу (2838; 0)) АБО (шё (129; 0), кё (108; 0), 1ё (959; 0)) 1

4 АБО (ёбв (144; 0), ёрб (249; 0), ёпв (304; 0), ёпр (105; 0), ёга (107; 0), ёгр (141; 0), ётэ (163; 0), ётч (132; 0), ёа (183; 0)) АБО (ямё (120; 0), дзё (1841; 0), каё (109; 0), длё (265; 0), ынё (109; 0), ылё (137; 0), ялё (567; 0), лаё (134; 0), ваё (176; 0), ысё (120; 0), ыё (3042; 0), 'ё (585; 0), цё (2685; 0)) 0.9

5 джау (119; 0) 1

6 АБО (джаю (246; 0), джае (295; 0), джва (5672; 0), джац (101; 0), джус (169; 0), джэ (653; 0), джы (628; 0), джг (134; 0)) АБО (ярдж (143; 0), падж (230; 0), будж (328; 0), гадж (315; 0), судж (379; 0), годж (223; 0), вудж (127; 0), кодж (109; 0), ладж (1344; 0), пудж (267; 0), вадж (274; 0), тудж (296; 0), рудж (415; 0), водж (223; 0), эндж (284; 0), сюдж (105; 0), кудж (195; 0), седж (383; 0), родж (1188; 0), ждж (295; 0), здж (786; 0), эдж (774; 0)) 0.9

7 АБО (дзеу (451; 0), дз1 (12888; 0)) АБО (1дз (750; 0), удз (381; 0)) 1

8 АБО (дзю_ (120; 0), дзел (1835; 0), дзен (1935; 0), дзев (283; 0), дзее (221; 0), дзеш (249; 0), дзею (142; 0), дзея (238; 0), дзюб (289; 0), дзес (652; 0), дзец (371; 0), дзё (1841; 0), дзь (1765; 0), дзя (5660; 0), дзг (136; 0)) АБО (падз (1405; 0), аадз (174; 0), лодз (262; 0), _адз (786; 0), гадз (638; 0), бадз (447; 0), хадз (215; 0), годз (180; 0), ледз (466; 0), вэдз (111; 0), вадз (372; 0), цадз (115; 0), ходз (626; 0), рэдз (275; 0), ундз (271; 0), садз (304; 0), водз (715; 0), эндз (192; 0), аедз (162; 0), дадз (614; 0), ведз (404; 0), андз (613; 0), 'едз (120; 0), седз (231; 0), задз (610; 0), медз (109; 0), родз (586; 0), мадз (332; 0), йдз (204; 0), рдз (1011; 0), ядз (1680; 0), ыдз (1041; 0), удз (2661; 0), бдз (497; 0), ьдз (174; 0), юдз (247; 0), здз (2310; 0), ддз (1476; 0)) 0.9

9 шч (25699; 19) 0.9

10 АБО (жы (10182; 0), шы (24825; 0), чы (43714; 0)) 1

11 АБО (жэ (3276; 14), шэ (2792; 5), чэ (8472; 0.4)) 0.9

Канчатак таблщы 2

1 2 3

12 чоу (635; 0) 1

13 АБО (чорн (138; 0), чос (126; 0), чот (213; 0)) АБО (пячо (178; 0), ашчо (267; 0), _шчо (167; 0)) 0.9

14 ллю_ (192; 0) 0.9

15 нняу (697; 0) 1

16 АБО (нням (1256; 0), ннях (618; 0); нню_ (5982; 0)) АБО (чанне (232; 0), зенне (122; 0), энне (1090; 0); жання (129; 0), нення (308; 0), кання (399; 0), чання (169; 0), зання (99; 0), лення (531; 0), тання (219; 0), вання (4121; 0), нання (141; 0), дання (255; 0), яння (111; 0), эння (982; 0); ненню (171; 0), канню (262; 0), ленню (318; 0), танню (131; 0), ванню (3248; 0), данню (121; 0), чанню (117; 0), энню (550; 0)) 0.9

17 АБО (цця_ (112; 0); ццю_ (174; 0)) АБО (ыцця (232; 0); ыццё (158; 0)) 0.9

18 шш (90; 0) 1

19 чч (160; 1) 0.9

20 ць (45092; 0) 1

21 АБО (рыш (250; 0), рыт (383; 0), рыщ (355; 0), рый (335; 0), рыш (307; 0), рым (259; 0), рым1 (974; 0), рыв! (457; 0), рыю (234; 0), рыа (117; 0), рыт (1206; 0), рып (251; 0), рыу (2218; 0), рыи (399; 0)) АБО (1тры (217; 0), ¡гры (219; 0), ¡бры (243; 0), ¡ры (1045; 0), уры (254; 0)) 1

22 АБО (рыжэ (174; 0), рыйц (117; 0), рыйс (178; 0), рыйн (290; 0), рыбр (140; 0), рыцц (526; 0), рыце (981; 0), рыцы (162; 0), рыцэ (126; 0), рыць (548; 0), рыця (345; 0), рыжы (352; 0), рычэ (292; 0), рычы (297; 0), рыпо (148; 0), рыпл (492; 0), рыпе (226; 0), рыпя (149; 0), рыпт (124; 0), рыпу (281; 0), рыпр (234; 0), рызв (119; 0), рызм (317; 0), рымл (335; 0), рымн (106; 0), рымс (247; 0), рымя (344; 0), рыпы (158; 0), рыдз (313; 0), рыдр (110; 0), рынг (278; 0), рыхт (810; 0), рынн (104; 0), рыхо (311; 0), рыхв (120; 0), рыгв (154; 0), рыем (241; 0), рыен (314; 0), рыер (114; 0), рытэ (149; 0), рыкв (213; 0), рыкм (123; 0), рытр (171; 0), рытм (215; 0), рыкр (391; 0), рывя (412; 0), рыгр (212; 0), рышп (175; 0), рышл (122; 0), рыгл (335; 0), рышв (266; 0), рышы (269; 0), рышч (694; 0), рышт (620; 0), рышс (160; 0), рынт (109; 0), рынц (212; 0), рысв (193; 0), рысм (192; 0), рысп (212; 0), рысл (409; 0), рыа (440; 0), рыу (162; 0), рыр (1837; 0), рыя (3260; 0), рыф (1113; 0), рыё (560; 0), рыю (410; 0)) АБО (тэры (1135; 0), цыры (131; 0), _зры (334; 0), бкры (188; 0), ытры (205; 0), узры (156; 0), _фры (194; 0)) 0.9

23 АБО (тыв! (571; 0), тыл1 (513; 0), тым1 (1883; 0), тыш (109; 0), тык (263; 0), тыу (2323; 0)) АБО (юты (3833; 0), уты (340; 0), ¡ты (1931; 0)) 1

24 АБО (тыту (537; 0), тыта (213; 0), тынг (350; 0), тысц (153; 0), тыст (689; 0), тыву (154; 0), тыйн (174; 0), тыя (1990; 0), тып (936; 0), тыз (1907; 0), тыц (562; 0), тыф (643; 0)) АБО (суты (104; 0), энты (150; 0), рэты (425; 0), ыяты (249; 0), аэты (163; 0), экты (164; 0), абты (123; 0), эаты (102; 0)) 0.9

Заувага: Слупок «Схема» таблiцы 2 утрымлiвае спрошчаныя схемы rрафiчных маркёрау; у дужках праз кропку з коскай указаны ¡рш маркёра на БН i ЗХ. Графiчны маркёр суадносiцца з усёй словаформай або з яе фрагментам (апошняе часцей). Калi няма асобых зауваг, схема дае атсанне маркёра з iгнараваннем рэгiстра. Значэнне КАС (адпаведны слупок таблiцы 2) прызначаецца па схеме, дадзенай у таблщы 1.

Самымi прыкметнымi i дакладнымi для iдэнтыфiкацыi з'яуляюцца адрозненш на графiчным узроуш, якiя звязаны з ужываннем у беларускiх тэкстах графем, што адсутшчаюць у рускай мове: / (пры умове, что выпраулены памылкi набору, дзе змешваюцца кiрылiчнае / лацiнскае г), у. Значэнне КАС для гэтых графем роунае 1. Фармалiзаванае апiсанне маркёрау на аснове графем I, у (табл. 2, рад. 1).

Знак апострафа, як апрыёры успрымаецца як спець^чны для беларускамоуных тэкстау, у рускамоуных тэкстах мае шзкую, але не нулявую частату. I у рускамоуных, i у беларускамоуных тэкстах знак апострафа выкарыстоуваецца у наступных выпадках:

а) у складзе пазычанняу, пераважна у iмёнах уласных (О'Хара (рус.), А'Хара (бел.) i падобныя са службовым элементам О' (рус.) i А' (бел.); о'кей, таксама д' цi Д' (рус., бел.); Кот-д'Ивуар, д'Артаньян, ДАртаньян;

б) у змешаных кiрылiчна-лацiнскiх словаформах пры аддзяленш iншамоУнай часткi ад рускамоу-най фiналi (в-шаИ'ом).

Толькi у беларускамоуных тэкстах знак апострафа выкарыстоуваецца у пазщыи «перад набраным у шжшм рэгiстры знакам галоснага». Задаушы адпаведнае фармалiзаванае апiсанне, атрымлiваем маркёр з КАС = 1. (табл. 2, рад. 2).

Паказчыкам беларускамоуных тэкстау i беларусюх украпленняу у рускамоуных тэкстах з'яуляец-ца ё, таму што для беларускай мовы выкарыстанне ё абавязковае, замена графемы ё на е не дапускаецца,

а у рускай мове дадзеная графема дэ факта не мае такога статусу да сённяшняга часу. Да таго ж, у бела-рускай мове на ё пачынаюцца пазычаныя словы (ёгурт, ёд, ёга, ётавы, ётаванне), у рускай мове яму адпавядае йо (йогурт, йод, йога, йотированный). Як паказвае практыка, у рускамоунай прэсе графема ё выкарыстоуваецца толью спарадычна. Аднак графема ё мае высокую 1рш на ЗХ (934); таму праводзiм даследаванне яе правага / левага акружэння. (табл. 2, рад. 3, 4).

Дыграфы дж, дз, шч абазначаюць гую, характэрныя беларускай мове, аднак калi спалучэнне шч нерэгулярнае для рускамоуных тэкстау (мае 1рш 19, сустракаецца на масiве ЗХ у словаформах па лексемах веснушчатость, веснушчатый, кошчонка, сиводушчатый), то спалучэнш дж и дз з'яуляюцца рэгу-лярнымi (маюць на мааве ЗХ 1рш 1028 i 1046 адпаведна), i таму патрэбна даследаваць iх акружэнне.

Фармалiзаванае апiсанне маркёрау як вынiк даследавання правага / левага акружэння спалучэнняу дж, дз змешчана у таблiцы 2, ради 5 - 8, маркёр на аснове спалучэння шч - радок 9.

Марюраванай прыкметай беларускай мовы могуць служыць склады жы (жыццё), шы (шырыня, шыпець), чы (чытаць, чысты), таму што у рускай мове яны адсутнiчаюць. Адзначым, што пералiчаныя склады сустракаюцца як у спрадвечнабеларускай, так i у пазычанай лексiцы, таму што у працэсе фане-тычнай адаптацыi шшамоуныя словы аамшююцца беларускай мовай i зблiжаюцца з беларускай лексiкай у гучанш i напiсаннi. Выключэнняу няма. У рускай мове, згодна з традыцыйным прынцыпам напiсання, захоуваюцца склады жи, чи, ши (табл. 2, рад. 10).

Ппотэза аб выкарыстанш у якасцi магчымых графiчных маркёрау для аутаматызаванай щэнтыфь кацыi беларускамоунага тэкста складоу жэ (жэст), шэ (шэршань, шэсць), чэ (чэмер), чо (чорны, чоканне) пацвердзшася часткова. Склады жэ сустракаюцца у рускай мове у шэрагу слоу (1рш на ЗХ = 14). У асноуным, гэта формы абрэвiятуры жэк i формы вытворнага ад яе слова жэковский (жэк, ..., жэках; жэковский,..., жэковских), а таксама таюя склады выяулены на стыку марфем (на марфемным шве) пры-стаую меж- i кораня этаж (межэтажный, ..., межэтажных). Склад шэ на ЗХ намi адзначаны у 11 вы-падках (1рш = 5), усе яны звязаны з выкарыстаннем дадзенага спалучэння у пазычаных лексемах (сэшэа, шэн, ..., шэны). Толькi у адным прыкладзе (эмчээс) быу выяулены на ЗХ склад чэ (1рш = 0.4). Фармалiзаванае апiсанне маркёрау на аснове спалучэнняу жэ, шэ, чэ гл. у таблщы 2, радок 11.

Двухлиарнае спалучэнне чо на ЗХ адлюстравана у вялшай колькасщ прыкладау (1рш = 626), сярод яюх выразна прасочваецца тэндэнцыя да перадачы чо у шшамоуных словах (анчоус, гаучо, каприччо, лечо, пастиччо, ранчо, пончо).

Таксама чо сустракаецца у формах назоунага i вiнавальнага склонау слоу з фшаллю -чок (армячок, балычок, бардачок, барсучок, башлычок, башмачок, боровичок, бочок, брачок, бурундучок, бурачок, внучок, воротничок; молчок; облучок; сморчок); у форме назоушкау мужчынскага роду адзшочнага тку творнага склону на стыку кораня на -ч i канчатка -ом (автотягачом, бирючом, бичом, богачом, бородачом, брюхачом, ветврачом, волосачом, головачом, копачом, кормачом, косачом, космачом, костромичом i шш.); у форме назоушкау жаночага роду адзшочнага л^у творнага склону на стыку кораня на -ч i канчатка -ою / -ой (камчою, кочой, кочою, кяманчой, кяманчою, кукарачой); у форме назоушка плечо (плечом); у каротшх формах прымет-шкау шякага роду адзшочнага л^у назоунага склону i амашм1чных iм прыслоуях (горячо).

У словах чо сустракаецца на стыку кораня, як заканчваецца на ч, i суфiкса: а) памяншальна-ласкальнага суфiкса назоушка -онок- (бельчонок, барсучонок, барчонок, батрачонок, внучонок, волчонок), б) памяншальна-ласкальнага i памяншальна-зшчыжальнага суфшса назоушкау -онк- (девчонка, казачонка, кепчонка, клячонка, кошчонка, мужичонка, мальчонка, лавчонка, собачонка, старичонка) i у прыслоуях, утвораных ад iх (по-девчоночьи), в) суфiкса прыметшкау -ое- (алычовый, арчовый, грачовая, епанчовая, каланчовый, каракульчовый, парчовый, кумачовый, саранчовый, сургучовая, стосвечовая i шш.).

Трэба yлiчыць таксама выпадкi выкарыстаня чо у некаторых словах: чокать i вытворных ад яго (зачокать, перечокаться); чопорный (почопорнее); чомга; у вытворных ад грач (грачовник, грачовый); у слове вечор (уст.); у iмёнах уласных (Печорин) i шш.

Фармалiзаванае апiсанне маркёрау як вышк даследавання правага / левага акружэння спалучэння чо змяшчаюць радкi 12-13 таблщы 2.

Адметным для беларускай мовы з'яуляецца фанет^гчнае падаужэнне зычных л (Купалле, застолле), н (насенне, здарэнне), с (калоссе), ж (раздарожжа, падарожжа), ш (зацшша, застрэшша, Замошша), ч (за-рэчча, ноччу), ц (жыццё, быццё), якое развшося у вынiку страты рэдукаван^1х у групе з^гчных перад наступ-ным j. На тсьме фанет^1чнае падаужэнне перадаецца праз падвоенае напiсанне адпаведн^1х графем. Шыпя-ч^1я ж, ш, ч зацвярдзел^ таму спалучаюцца з галосньгш непярэдняй зоны утварэння (зарэчча, зацшша, падарожжа). У рускай мове згаданым беларусшм спалучэнням адпавядаюць спалучэнш зычных з Ь (застолье, затишье i г.д.). Патрэбна yлiчваць, што у беларускай мове могуць сустракацца выпадк1 падваення сс, нн на стыку марфем (бясстрашны, дрэнны), таму трэба абавязкова yлiчваць, якая графема будзе наступнай.

Апрыёры (без даследавання правага / левага акружэння) было зразумела, што у беларускай мове марираваныЕШ будуць спалучэнш лл, нн, сс, цц i лиар е, ц я, ё, ю. Фармалiзаванае апiсанне маркёрау як вышк даследавання правага / левага акружэння спалучэння лл[еяюё] гл. таблща 2, радок 14, спалучэння нн[еяюё] (табл. 2, рад. 15-16), спалучэння цц[еяюё] (табл. 2, рад. 17).

Спалучэнш шш, чч спецыфiчныя для беларускай мовы (ipm на ЗХ 0 и 1 адпаведна) (табл. 2, рад. 18, 19). Не было выяулена маркёрау са спалучэннямi сс, жж.

У рускай мове адсутшчае спалучэнне ць, якое адлюстроувае адну з асноуных фанетычных рыс беларускай лiтаратурнай мовы - цеканне (чытаць, скакаць) i сустракаецца у iнфiнiтыве дзеясловау, формах дзеясловау 3 асобы множнага лiку цяперашняга i будучага простага часу i iнш., таму з'яуляецца прыкметай частотнай i выразна маркiраванай (табл. 2, рад. 20).

Ппотэза наконт складоу ры (Вадохрышча, Марыя, фурыя), ты (тытан, ерэтык, тытунь) як вера-годных маркёрау беларусмх тэкстау не спраудзшася (ipm на ЗХ: ры = 14 408, ты = 22 593) (табл. 2, рад. 21-22, 23-24 адпаведна).

Заключэнне. Вызначаны на падставе лшгвастатыстычнага аналiзу комплекс граф1чных маркёрау можа быць выкарыстаны для аутаматызацыi размети беларускамоуных украпленняу у рускамоуных тэкстах пры стварэнш паунатэкставых электронных моуных рэсурсау, яшя адлюстроуваюць натуральнае узаемадзеянне беларускай i рускай моу ва умовах дзяржаунага двухмоуя. Апрабацыя размети беларускамоуных украпленняу у рускамоуных тэкстах была праведзена на базе дадзеных беларусих СМ1. У перспектыве нашага далей-шага даследавання - выяуленне маркёрау на базе спалучэнняу графем у шшамоуных словах.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Л1ТАРАТУРА

1. Карский, Е. Ф. Белорусы : в 3 т. / Е. Ф. Карский. - Т. 1: Введение к изучению языка и народной словесности. -Вильн а: Типогр. А.Т. Сыркина, 1904. - 466 с.

2. Карский, Е. Ф. Белорусы : в 3 т. / Е. Ф. Карский. - Т. 3: Очерки словесности белорусского племени. - Кн. 3 : Художественная литература на народном языке. - Петроград, 1922. - 456 с.

3. Булахау, М. Г. Развщцё беларускай л1таратурнай мовы у XIX - XX ст. ва узаемаадносшах з шшым1 славянсюм1 мовам1 / М. Г. Булахау. - Мшск : АН БССР, 1958. - 43 с.

4. Булахов, М. Г. Особенности интерференции русского и белорусского языков / М. Г. Булахов // Проблемы двуязычия и многоязычия / АН СССС, Науч. совет «Закономерности развития нац. яз. в связи с развитием соц. наций», Ин-т языкознания, Ин-т рус. яз, Ин-т яз. и литературы АН ТССР; отв. ред. П.А. Азимов. - М. : Наука, 1972. -С. 217-224.

5. Жураусю, А. I. Двухмоуе i шматмоуе у псторьи Беларуа / А. I. Жураусю // Пытанш бшшгв1зму i узаемадзеяння моу / АН БССР, 1н-т мовазнауства ¡мя Я. Коласа, БДУ; рэд. М.В. Б1рыла, А.Я. Супрун. - Мшск : Навука i тэхшка, 1982. - С. 18-49.

6. Гируцкий, А. А. Белорусско-русский художественный билингвизм: типология и история, языковые процессы / А. А. Гируцкий; под ред. П. П. Шубы. - Минск : Университетское, 1990. - 175 с.

7. Вешторт, Г. Ф. Смешанные формы речи / Г. Ф. Вешторт // Типология двуязычия и многоязычия в Беларуси. -Мшск : Бел. навука, 1999. - С. 93-101.

8. Коряков, Ю. Б. Языковая ситуация в Белоруссии / Ю. Б. Коряков // Вопросы языкознания. - 2002. - № 2. - С. 109-127.

9. Мечковская, Н. Б. Исторические типы двуязычия и типология языковых конфликтов / Н. Б. Мечковская // Языковой контакт : сб. науч. ст. - Минск : РИВШ, 2015. - С. 125-137.

10. Конюшкевич, М. И. Языковая ситуация в Белоруссии и особенности функционирования русского и белорусского языков / М. И. Конюшкевич // Язык в контексте общественного развития = Language in the Context of Social Development. - М. : ИЯ РАН, 1994.- С. 213-221.

11. Конюшкевич, М. И. Социолингвистические особенности коммуникации в русско-белорусскоязычном социуме / М. И. Конюшкевич // Язык и межкультурные коммуникации : сб. науч. ст. / Мин-во образования РБ, БГПУ им. М. Танка, Вильнюсский педагогический ун-т ; редкол.: В.Д. Стариченок (отв. ред.) [и др.]. - Минск : БГПУ, 2007. -С. 237-239.

12. Цыхун, Г. А. «Трасянка» як аб'ект лшгвютычнага даследавання / Г. А. Цыхун // Беларуская мова у другой па-лове ХХ стагоддзя: матэрыялы М1жнар. навук. канф. / рэдкал.: М.Р. Прыгодз1ч (адк. рэд.) [i шш.] - Мшск : Белдзярж-ушвератэт, 1998. - С. 83-89.

13. Бордович, А. М. Сопоставительный курс русского и белорусского языков : учеб. пособие для филол. спец-й вузов / А. М. Бордович, А. А. Гируцкий, Л. В. Чернышова. - Минск : Университетское, 1999. - 223 с.

14. Кривицкий, А. А. Белорусский язык для говорящих по-русски / А. А. Кривицкий, А. Е. Михневич, А. И. Под-лужный. - Мшск : Выш. шк., 1990. - 368 с.

15. Сопоставительное описание русского и белорусского языков: морфология / АН БССР, Ин-т языкознания им. Я. Коласа. - Мшск : Навука i тэхшка, 1990. - 336 с.

16. Стариченок, В. Д. Русский язык в Беларуси: состояние, песпективы / В. Д. Стариченок // Слово.ру: Балтийский акцент. - 2012. - № 2. - С. 78-80.

17. Маевская, В. П. Билингвальное и этнокультурное образование в Республике Беларусь / В. Л. Маевская, Р. С. Сидоренко // Русский язык и литература. - 2008. - № 3. - С. 12-17.

18. Новикова, Л. П. Фонетическая интерференция в условиях русско-белорусского двуязычия / Л. П. Новикова // Наука - образованию, производству, экономике: материалы XVII (64) Региональной науч.-практ. конф. преподавателей, научных сотрудников и аспирантов, Витебск, 14-15 марта 2012 г. : в 2 т. - Витебск, 2012. - Т. 1. -С. 186-187.

19. Вардомацкий, Л. М. Особенности ударения существительных в русском, белорусском и украинском языках: учеб. пособие для студентов филол. фак. пед. ин-тов / Л. М. Вардомацкий. - Мшск : Выш. шк., 1988. - 128 с.

20. Метлюк, А. А. Взаимодействие просодических систем в речи билингва: учеб. пособие для ин-тов и фак. иностр. яз. / А. А. Метлюк. - Минск : Выш. шк., 1986. - 110 с.

21. Абабурка, М. В. Параунальная граматыка беларускай i рускай моу: вучэбны дапаможшк для фшал. фак. вышэйшых навучальных устаноу / М. В. Абабурка. - Мшск : Выш. шк., 1992. - 224 с.

22. Гурсю, М. I. Параунальная граматыка рускай i беларускай моу: фанетыка i марфалопя: падручшк для фшал. фак. вышэйшых навучальных устаноу / М. I. Гурсю. - Мшск : Выш. шк., 1972. - 262 с.

23. Трофимович, Т. Г. Сравнительно-историческая грамматика русского и белорусского языков : курс лекций / Т. Г. Трофимович. - Минск: БГПУ, 2006. - 179 с.

24. Бубнов1ч, I. I. Сютэма форм выражэння грамем роду у беларускай i рускай мовах у аспекце дыяхранп / I. I. Буб-нов1ч // Карповские научные чтения : сб. науч. ст. : в 2 ч. ; редкол.: А.И. Головня (отв. ред.) [и др.] - Минск : Белорусский Дом печати, 2014. - Вып. 8. - Ч. 2. - С. 171-175.

25. Киселев, И. А. Частицы в современных восточнославянских языках / И. А. Киселев. - Минск : БГУ, 1976. - 160 с.

26. Мощенская, Л. Г. Как белорусы говорят по-русски? Варианты рода имен существительных в русской речи белорусов / Л. Г. Мощенская; ред. П. П. Шуба. - Минск : Университетское, 1992. - 158 с.

27. Грабчиков, С. М. Межъязыковые омонимы и паронимы. Опыт русско-белорусского словаря. Свыше 550 пар слов / С. М. Грабчиков. - Минск : БГУ, 1980. - 215 с.

28. М1хнев1ч, А. Я. Вазьм1 маё слова...: Нататю аб лекачным узаемауплыве беларускай i рускай моу у кантэксце узаемадзеяння культур / А. Я. М1хнев1ч, А. А. Пруцю. - Мшск : Навука i тэхшка, 1990. - 87 с.

29. Норман, Б. Ю. Билингвизм и многоречие в Республике Беларусь / Б. Ю. Норман // Русский язык в многоречном социокультурном пространстве / отв. ред. Б. М. Гаспаров, И.А. Купина. - Екатеринбург : УрФУ, 2014. - С. 267-286.

30. Ашчэнка, У. В. Пстарычная лексжалопя усходнеславянсюх моу : вучэб. дапам. для студ. i выклад. фшал. фак. выш. навуч. уст. па спец. «Мовы народау СССР» / У. В. Ашчэнка. - Гомель : ГДУ, 1978. - 94 с.

31. Козырев, И. С. К вопросу сравнительно-исторической лексикологии русского и белорусского языков / И. С. Козырев. - Минск : МГПИ, 1980. - 74 с.

32. Борковский, В. И. Синтаксис сказок: русско-белорусские параллели / В. И. Борковский. - М. : Наука, 1981. - 233 с.

33. Конюшкевич, М. И. Синтаксис близкородственных языков / М. И. Конюшкевич. - Минск : Университетское, 1989. - 156 с.

34. Конюшкевич, М. И. Синтаксис русского и белорусского языков. Сходство и различия: пособ. для учителя / М. И. Конюшкевич, М. А. Корчиц, В. Л. Лещенко. - Мшск : Народная асвета, 1994. - 158 с.

35. Шуба, П. П. Русско-белорусские контакты в области синтаксиса / П. П. Шуба // Вестн. БГУ. Сер. 4, Филология. Журналистика. Педагогика. - 1973. - № 2. - С. 31-36.

36. Чумак, Л. Н. Синтаксис русского и белорусского языков в аспекте культурологии / Л. Н. Чумак. - Минск : Белгосуниверситет, 1997. - 196 с.

37. Михневич, А. Е. Русский язык в Белоруссии / А. Е. Михневич [и др.]; под ред. А. Е. Михневича. - Минск : Наука и техника, 1985. - 272 с.

38. Хаген, М. Развернутый словарь А. А. Зализняка. Полная парадигма. Морфология [Электронный ресурс] / М. Хаген. - Режим доступа: http://www.speakrus.ru/dict/#morph-paradigm. - Дата доступа: 04.05.2018.

39. Кошчанка, У. Лексжа-граматычная база для Беларускага N-корпуса. Зборка ад 10.08.2016 / У. Кошчанка, А. Булойчык, С. Какора. - Рэжым доступу: https://bnkorpus.info/nkorpus-grammar.zip. - Дата доступу: 04.05.2018.

40. Зализняк, А. А. Грамматический словарь русского языка: Словоизменение. Ок. 100 000 слов / А. А. Зализняк -М. : Рус. яз., 1980. - 879 с.

Пастуту 04.09.2018

GRAPHICAL MARKERS FOR AUTOMATED IDENTIFICATION OF BELARUSIAN INCLUSIONS IN A MIXED BELARUSIAN-RUSSIAN TEXT

A. STANKEVICH, I. BUBNOVICH

The linguostatistically defined complex of graphical markers for automated identification of Belarusian inclusions in a mixed Belarusian-Russian text is described. The algorithm of compiling the test corpora of Belarusian and Russian languages and the schemas of graphical markers are provided in the appendix to the article. The revealed complex of the graphical markers can be widely used as a component of linguistic support for creation of diverse full-text language resources in conditions of the Republic of Belarus.

Keywords: electronic language resources, corpus technologies, annotation, linguistic support, graphical marker, Belarusian-Russian bilingualism, Belarussian inclusions, mixed Belarusian-Russian text.

i Надоели баннеры? Вы всегда можете отключить рекламу.