Научная статья на тему 'ДА ПЫТАННЯ АБ УКЛАДАННІ КОРПУСА БЕЛАРУСКІХ НАВУКОВЫХ ТЭКСТАЎ 1920-1930-Х ГГ.'

ДА ПЫТАННЯ АБ УКЛАДАННІ КОРПУСА БЕЛАРУСКІХ НАВУКОВЫХ ТЭКСТАЎ 1920-1930-Х ГГ. Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
39
9
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ГіСТОРЫЯ БЕЛАРУСКАЙ ЛіТАРАТУРНАЙ МОВЫ / НАВУКОВЫ СТЫЛЬ / ДЫЯХРАНіЧНЫ КОРПУС БЕЛАРУСКIХ НАВУКОВЫХ ТЭКСТАў / БЕЛАРУСКАЯ МОВА 1920-1930-Х ГГ / КОРПУСНАЯ ЛіНГВіСТЫКА

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Наўроцкая Ірына Валянцінаўна

Выкарыстанне інфармацыйных тэхналогій у мовазнаўстве дазваляе ствараць вялікія масівы тэкставых даных, распрацоўваць адпаведнае праграмнае забеспячэнне, што адкрывае новыя магчымасці ў лінгвістычных корпусных даследаваннях. Гістарычная значнасць навуковага стылю 1920-1930-х гг. выступае аб’ектыўнай і актуальнай задачай для стварэння дыяхранічнага корпуса беларускіх навуковых тэкстаў. Шырокая тэматычная і жанравая разнастайнасць друкаванай перакладной і аўтарскай навуковай літаратуры 1920-1930-х гг. адкрываюць перспектывы для стварэння адпаведнага корпуса навуковых тэкстаў, які можа быць як аднамоўным беларускім, так і двухмоўным - з прыцягненнем арыгінальных тэкстаў, з якіх рабіліся пераклады. Да актуальных задач па распрацоўцы корпуса беларускіх навуковых тэкстаў 1920-1930-х гг. адносяцца стварэнне анатаванага спіса крыніц для выбару найбольш рэпрэзентатыўных адзінак, апрацоўка PDF-файлаў навуковых выданняў і выяўленне ў іх тэкставага слоя. Стварэнне дыяхранічнага корпуса навуковай літаратуры дазволіць якасна прааналізаваць значны аб’ём інфармацыі і атрымаць колькасныя паказчыкі для абгрунтаваных высноў, выявіць факты дынамікі моўных зменаў.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ON THE ISSUE OF CORPORA CREATION OF BELARUSIAN SCIENTIFIC TEXTS OF THE 1920S-1930S

The use of information technology in linguistics allows creating large arrays of text data, developing the relevant software that provides new opportunities in linguistic corpus research. The historical significance of the scientific style in the 1920s-1930s acts as an objective and urgent task for the creation of a diachronic corpus of Belarusian scientific texts. Extensive thematic and genre variety of printed translated and authored scientific literature of the 1920s-1930s offers the prospect for creating the corpus of scientific texts, which can be both monolingual Belarusian and bilingual - with the involvement of original texts from which translations were made. Developing the corpus of Belarusian scientific texts from the 1920s-1930s includes devising an annotated list of sources to select the most representative ones, processing PDF files of scientific journals and identifying a text layer in them. The creation of the diachronic corpus of scientific literature will allow to qualitatively analyze a significant amount of information, obtain quantitative indicators for reasoned conclusions, reveal the facts of the language changes dynamics.

Текст научной работы на тему «ДА ПЫТАННЯ АБ УКЛАДАННІ КОРПУСА БЕЛАРУСКІХ НАВУКОВЫХ ТЭКСТАЎ 1920-1930-Х ГГ.»

74

Труды БГТУ, 2021, серия 4, № 1, с. 74-78

УДК 811.161.3'0

I. В. Науроцкая

Беларуси дзяржауны ушверсгот шфарматыю i радыёэлектронш

ДА ПЫТАННЯ АБ УКЛАДАНН1 КОРПУСА БЕЛАРУСК1Х НАВУКОВЫХ ТЭКСТАУ 1920-1930-х ГГ.

Выкарыстанне iнфармацыйных тэхналогiй у мовазнаустве дазваляе ствараць вялiкiя масiвы тэкставых даных, распрацоуваць адпаведнае праграмнае забеспячэнне, што адкрывае новыя магчымасцi у лшгвютычных корпусных даследаваннях. Пстарычная значнасць навуковага стылю 1920-1930-х гг. выступае аб'ектыунай i актуальнай задачай для стварэння дыяхратчнага корпуса беларуск1х навуковых тэкстау. Шырокая тэматычная i жанравая разнастайнасць друка-ванай перакладной i аутарскай навуковай л1таратуры 1920-1930-х гг. адкрываюць перспектывы для стварэння адпаведнага корпуса навуковых тэкстау, як1 можа быць як аднамоуным беларуск1м, так i двухмоуным - з прыцягненнем арыгiнальных тэкстау, з якiх рабшся пераклады. Да актуальных задач па распрацоуцы корпуса беларуск1х навуковых тэкстау 1920-1930-х гг. адносяцца стварэнне анатаванага спiса крынiц для выбару найбольш рэпрэзентатыуных адзiнак, апрацоука PDF-файлау навуковых выданняу i выяуленне у iх тэкставага слоя. Стварэнне дыяхрашчнага корпуса навуковай лгтаратуры дазвол1ць якасна прааналiзаваць значны аб'ём iнфармацыi i атры-маць колькасныя паказчык1 для абгрунтаваных высноу, выявщь факты дынамш моуных зменау.

Ключавыя словы: псторыя беларускай лiтаратурнай мовы, навуковы стыль, дыяхрашчны корпус беларуск1х навуковых тэкстау, беларуская мова 1920-1930-х гг., корпусная лшгвютыка.

Для цытавання: Науроцкая I. В. Да пытання аб укладант корпуса беларуск1х навуковых тэкстау 1920-1930-х гг. // Труды БГТУ. Сер. 4, Принт- и медиатехнологии. 2021. № 1 (243). С. 74-78.

I. V. Naurotskaya

Belarusian State University of Informatics and Radioelectronics

ON THE ISSUE OF CORPORA CREATION OF BELARUSIAN SCIENTIFIC TEXTS OF THE 1920S-1930S

The use of information technology in linguistics allows creating large arrays of text data, developing the relevant software that provides new opportunities in linguistic corpus research. The historical significance of the scientific style in the 1920s-1930s acts as an objective and urgent task for the creation of a diachronic corpus of Belarusian scientific texts. Extensive thematic and genre variety of printed translated and authored scientific literature of the 1920s-1930s offers the prospect for creating the corpus of scientific texts, which can be both monolingual Belarusian and bilingual - with the involvement of original texts from which translations were made. Developing the corpus of Belarusian scientific texts from the 1920s-1930s includes devising an annotated list of sources to select the most representative ones, processing PDF files of scientific journals and identifying a text layer in them. The creation of the diachronic corpus of scientific literature will allow to qualitatively analyze a significant amount of information, obtain quantitative indicators for reasoned conclusions, reveal the facts of the language changes dynamics.

Key words: history of the Belarusian literary language, scientific style, diachronic corpus of Belarusian scientific texts, Belarusian language of the 1920s-1930s, corpus linguistics.

For citation: Naurotskaya I. V. On the issue of corpora creation of Belarusian scientific texts of the 1920s-1930s. Proceedings of BSTU, issue 4, Print- andMediatechnologies, 2021, no 1 (243), pp. 74-78 (In Belarusian).

Уводзшы. Аб'ектыуная асаблiвасць сучас-най парадыгмы ведау - далейшае пашырэнне шфарматызацьп грамадства. З развщцём шфар-мацыйных тэхналогш узрастае якасць падрых-тоую спецыялютау, яюя могуць за адносна каротю тэрмш апрацоуваць вялЫя машвы даных. У гэтым плане лшгвютыка не з'яуляецца вы-ключэннем i набывае штэрдысцыплшарны ха-рактар. Як адзначаюць навукоуцы, щэя ствараць корпус тэкстау дауно вядомая у мовазнаустве. Так, у тлумачальных слоушках выкарыстоува-ецца практыка раскрываць значэнне слова праз

кантэкст [1, с. 34]. Аднак менав^а выкарыстанне шфармацыйных тэхналогш у лшгвютычных мэтах абумовша з'яуленне новых магчымасцей для даследавання: ствараць вялтя машвы тэкставых даных i распрацоуваць адправеднае праг-рамнае забеспячэнне.

Асноуная частка. Пад паняццем корпуса тэк-стау у мовазнаустве звычайна разумеецца база тэкстау, яюя адабраны па крытэрыях рэпрэзен-татыунасщ пэунай мовы [2], маюць электронны выгляд, утрымлiваюць метамоуную лшгвю-тычную разметку i, як адзначаюць даследчыкi,

I. В. Науроикая

75

пaжaдaнa дacтyпныя npa3 iнтэpнэт для шыpoкaгa ^pb^a^m^ i пaвелiчэння «пayнaвapтacнaй фyнкцыянaльнacцi rapnyca» [1, с. 35].

Дacягненнi белapycкaй коpпycнaй лшгвю-тык пpaдcтayлены Удзельнiкaмi пpaектay na пьтаннях методыю i pacnpa^yri коpпycaУ rn-цыянaльнaй мовы, aпicвaеццa ricTOpbra cтвapэн-ня коpпycaУ arn^m^a^ pycкaй, польcкaй i iнш. моу [1; 2; 3; 4; 5; б; 7], пpaведзены cynaCTay-ляльны aнaлiз дacтyпныx y iнтэpнэце кopпycaУ белapycкaй мовы [S].

Пеpшaй cпpoбaй acoбнaгa кopпyca швуко-вых тэксгау з'яyляеццa pacпpaцaвaны Corpus Albaruthenicum ^bi^aAra нa 350 тыс. cлoвaУжы-вaнняy, cтвopaны з выкapыcтaннем 74 тэксшу. Пошук пэyнaй cлoвaфopмы (кaмбiнaцыi слоу) na кopпycе aжыццяyляеццa з дaпaмoгaй araa^ нaвaгa cэpвicy http://grid.bntu.by/corpus/ [9]. ^вуковы стыль y яго вучэбшй paзнaвiднacцi выкapыcтoУвaеццa для cтвapэння пapaлельнaгa кopпyca белapycкix i pycкix пaдpyчнiкay [4]. Вaжнa aдзнaчыць, што rapa^a^m кopпycы пpaдcтayляюць ciнxpoнны зpэз моушга paзвiцця. Тым не менш pacпpaцoУшчыкi нaцыянaльнaгa кopпyca белapycкaй мовы (Белapycкi N-кopпyc) пpызнaюць, што «кopпyc мoжa мець дыяxpaнiч-нa-ciнxpoнны xapaктap i уключаць матэрыялы па-чынаючы з 20-х гадоу, асаблiва гэта ты-чыцца падкорпусу "Спецыяльныя тэксты" (кур-ciy наш - I. Н. )» [2]. Тaкiм чынaм, гicтapычнaя знaчнacць нaвyкoвaгa стылю 1920-1930-х гг. aбгpyнтaвaнa выcтyпaе aб'ектыyнaй i ктyaльнaй зaдaчaй для pacпpaцoУкi дыяxpaнiчнaй 4acrai нaцыянaльнaгa кopпyca белapycкaй мовы. Ад-нaк aкpэcленaе пытaнне яшчэ чaкaе cвaйгo вы-paшэння метaдaмi кopпycнaй лiнгвicтыкi, na-кoлькi пpы pacnpa^y^i белapycкaгa N-кopпyca «pэкaмендaвaлacя aддaць пеpaвaгy xpaнaлaгiч-нa больш вyзкaмy пеpыядy» [2]. Пpaцa нaд нaцыянaльным кopпycaм белapycкaй мовы na-cтaяннa вядзецвд, тaмy aптымicтычнa ycnpbi-мaюццa словы npa «cтвapэнне ciнxpoннaгa rap-пусу з пacтyпoвым яго pэтpacпектыyным тшы-pэннем» [2].

Дacледчыкaмi na ricTOpbii мовы дayнo aдзнa-чaнa неaбxoднacць выкapыcтaння iнфapмaцый-ных тэxнaлoгiй для anpa^yra вялiкaй кoлькacцi тэкcтay [10, с. 174; 11, с. 300]. Зpэшты, спецыя-лicты na кopпycнaй лiнгвicтыцы aдзнaчaюць, што гaтoвыя rnpnycbi дaзвaляюць выxoдзiць зa межы вузюх лшгвютычных зaдaч i мяюць вялшую npa^ тычную знaчнacць [1, с. 35].

Пеpыяд 1920-1930-х гг. acaблiвa пaкaзaль-ны y плaне дытамш мoУнaгa фyнкцыянaвaння: белapycкaя мoвa iмклiвa paзвiвaлacя дзякуючы пaшыpэнню кaмyнiкaтыyныx функцый белapyc-кaй мовы нa усе cфеpы тaгaчacнaгa гpaмaдcкaгa жыцця. У ягасщ aб'ектыyнaгa пaкaзчыкa мoжнa

paзглядaць кнiгaвыдaвецкyю cпpaвy, якaя aдлю-cтpoyвaе вынiк шыpoкaгa уключэння белapycкaй мовы y caцыяльныя пpaцэcы. Тaк, та пpaцягy 1920-1930-х гг. выдaвaлacя вялiкaя кoлькacць белapycкaмoyнaй лiтapaтypы. Дa пapayнaння пpывядзём лiчбы белapycкaй дpyкaвaнaй кшп нa тэpытopыi БССР (СССР) тводле бiблiягpa-фiчныx дaныx: у 1922 г. выпyшчaнa 2б нaзвay, пpaз 10 гaдoУ, у 1932 г. na6a4brna свет 1300 шз-вay белapycкaмoyныx выдянниу [12, с. 211]. Адзш-чaнa y тым лшу шыpoкaя тэмaтычнaя i жaнpaвaя paзнacтaйнacць нaвyкoвaй кнiгi [13]. HaHyrnc^ вял^й кoлькacцi белapycкix пеpaклaдныx i a^apc^ paбoт, пpaдcтayленыx у тpox тдсты-лях нaвyкoвaй фyнкцыянaльнaй paзнaвiднacцi (yлacнa нaвyкoвы, нaвyчaльны i нaвyкoвa-пaпy-ляpны), тэмaтычнaе бaгaцце белapycкaмoyнaй нaвyкoвaй лiтapaтypы (мaтэмaтыкa, фiзiкa, xiмiя, геaдэзiя, paдыётэxнiкa, мiнеpaлoгiя, геaгpaфiя, acтpaнoмiя, медыцынa, э^ном^, тэxнiкa, вaен-нaя cпpaвa, сельстая гacпaдapкa, гicтopыя, ф^га-лoгiя, кpaязнaycтвa i iнш.) aдкpывaюць rapc^^ тывы для cтвapэння кopпyca нaвyкoвыx тэкcтay 1920-1930-х гг., якi мoжa быць як aднaмoyным белapycкiм, тaк i двухмоуным - з ^ы^тое^ нем aph^^am^^ тэкcтay, з якix pa6w^ œpa-клaды. Тым больш што у дacледaвaнняx псто-pbœay мовы aбгpyнтoyвaеццa, што cyпacтayленне apыгiнaльнaгa i пеpaклaднoгa тэксгау дaзвaляе выявiць глыбшныя зaкaнaмеpнacцi моутага paî-вiцця, не зayвaжныя пpы кapыcтaннi выключнa пеpaклaдaм [14, с. 14]. Icтoтнa npbi yклaдaннi кopпyca мець нa yвaзе, што некaтopыя нaвyкoвыя выдaннi пеpaвыдaвaлicя зa 1920-1930-я гг., тaмy пapayнaнне некaлькix веpciй aднaгo тэксту, яюя выxoдзiлi у poзны 4ac, мoжa служыць нaдзейным пaкaзчыкaм моуных змешу [10, с. 174; 11, с. 300]. Тaкiм чынaм, cтвapэнне дыяxpaнiчнaгa кopпyca нaвyкoвaй лiтapaтypы дaзвoлiць ятасш npaarn-лiзaвaць знaчны aб'ём iнфapмaцыi i aтpымaць кoлькacныя пaкaзчыкi для aбгpyнтaвaныx выс-ноу, выявiць фaкты дынaмiкi моуных зменay.

У Нaцыянaльнaй бiблiятэцы Рэcпyблiкi Бе-лapycь пpaвoдзiццa вялiкaя paбoтa na aблiчбoy-цы зaxaвaныx выдaнняy 20-30-х гг. ХХ ст., што дaзвaляе Увoдзiць ix у нaвyкoвы yжытaк. Aднaк неaбxoднa зayвaжыць, што нa пaчaтaк 2021 г., якpaз aмaль пpaз сгагоддзе, кaлi пaчaлi шьфо-кa выдaвaццa белapycкaмoУныя кнiгi, поуны кaтaлoг дpyкaвaныx выдaнняy Белapyci 19201930-х гг., c^opa^i з выкapыcтaннем iнфap-мaцыйныx тэxнaлoгiй, яшчэ тoлькi чaкaе cвaёй pэaлiзaцыi. Aдпaведнaя электpoннaя кaлекцыя <<Кшга Белapyci 1517-1917 гг. Зводны кaтaлoг» pacпpaцaвaнa (yключaе aнaтaвaны cnic ^ынщ, лiчбaвыя копй acoбныx тэкcтay) i дacтyпнaя для кapыcтaльнiкa у лaкaльнaй сетцы Нaцыянaльнaй бiблiятэкi. ПaдpыxтoУкa дpyгoй чacткi кaтaлoгa

76

Да пытання аб укладанн1 корпуса беларуск1х навуковых тэкстау 1920-1930-х гг.

беларускай савецкай KHiri з 1917 да 1950-х гг. была запланавана яшчэ у 1974 г. [15, с. 120-121]. Магчыма, у блiжэйшы перыяд будзе створана электронная бiблiяграфiя KHir, выдадзеных у 1920-1930-я гг., што дазволiць найбольш поуна прадставщь рэпертуар нацыянальнай кнiгi i закласщ трывалыя асновы для дыяхранiчных даследаванняу як па гiсторыi мовы, так i па ri-сторыi навую Беларусi. Тым больш што станоу-чыя крокi у гэтым наюрунку ужо зробленыя на матэрыяле перыядычнага друку. Так, Нацыянальнай бiблiятэкай прадстаулена электронная ка-лекцыя «Беларуская лiтаратурная спадчына», якая уключае лiчбавыя копй больш за 400 ну-мароу 270 назвау часотсау 1919-1939 гг., па-дзеленых паводле тэматыю (адукацыя, меды-цына, ваенная, выдавецкая справы, геафiзiка, жывёлагадоуля, лясная гаспадарска, мастацтва, транспарт, эканомiка i шш.). Выданнi на лга-ратурную тэматыку падзяляюцца у залежнасцi ад месца выдання: часопiсы БССР, Заходняй Беларус i беларускага замежжа. Калекцыя аб-лiчбаваных копiй часопiсау даступная па адрасе http://digital.nlb.by/collections/show/9.

Для укладання корпуса беларусюх навуковых тэкстау 1920-1930-х гг. неабходна выра-шыць наступную задачу: скласцi максiмальна поуны анатаваны спiс навуковых выданняу адзначанага перыяду, якi пакуль уяуляе сабой разрозненыя бiблiяграфiчныя звесткi. Напры-клад, навуковыя выданнi на беларускай мове прыводзяцца у «Летапiсе беларускага друку» (1924-1931 гг.), «Летатсе друку Беларускай ССР» (з 1932 г.). Асобныя выданш даступныя у электронных каталогах бiблiятэк Рэспублiкi Беларусь, пытаннi навуковай лгаратуры раз-глядаюцца у лiтаратуры па кшгавыдавецкай дзейнасцi [12 i шш.]. Складзены анатаваны спiс дазволiць выбраць найбольш рэпрэзентатыуныя адзiнкi паводле падстыляу, наяунасцi перакла-дау i перавыданняу навуковай лiтаратуры. Другой актуальнай задачай для укладання корпуса навуковых тэкстау 1920-1930-х гг. з'яуляецца атрыманне лiчбавай копй тэксту-крынiцы, што дазволщь ажыццяуляць аутаматычны пошук па тэксце. З выкарыстаннем iнфармацыйных тэх-налогш тэкст павiнен распазнавацца камп'ю-тарнай праграмай як тэкставы код i адпаведным чынам адлюстроувацца у гэтай жа праграме. Так, у Нацыянальнай бiблiятэцы Рэспублш Беларусь некаторыя друкаваныя выданнi 19201930-х гг. прадстаулены у выглядзе лiчбавай копй у фармаце PDF-файла. Гэта дазваляе вывучаць крынiцу у праграме-праглядальнiку, выкарыстоуваць зручны маштаб, захоуваць ко-пiю дакумента на карту флэш-памящ. Паколькi аблiчбаваная кнiга захоуваецца у выглядзе фар-мату PDF, у якiм тэкставы слой не распазнаны,

a nagag3eHbi aK raroBbi ManroHaK, mTO a6rpyHTaBa-Ha npagcTayneHHeM y эneктpоннbIм acapogg3i HagpyKaBaHaM KHiri 3 3axaBaHHeM ycix эneмeнтay ae a^apMneHHa, to y gacnegnbiKa gna ganeMmaM npa^i y3HiKae Hea6xogHac^ pacna3HaBaHHa тэкстy. y cBaro napry гэтa ga3Banae BbiKapbicroy-Ba^ pacna3HaHbi тэкст y nparpaMax, aKia ayTa-Marbi3yro^ nomyK agnaBegHaM cnoBa^opMbi, na-payHoyBaro^ HeKanbKi BbigaHHay agHaro TBopa a6o apbirman i aro nepaKnag, agnrocrpoyBaro^ BHHiKi napayHaHHa y aco6HbiM gaкyмeнцe. fla HaM-6onbm BagoMbix nparpaM TaKora Tbiny agHoc^^ тэкcтaвн pэgaктap Word. HanpbiKnag, cynacray-neHHe HeKanbKix BepciM agHaro T3Kcry Marnbrna npa-вecцi, Ha^cHymbi Ha yKnagKy «Сэрeiс» i Bbi6paymbi capog cnica KaMaHg «napayua^ i a6 'ndHa^».

3 pacna3HaBaHHeM тэкcтaвara cnoa PDF-^aM-na 3Ba3aHH HeKaTopbia ^^Ka^i. na-nepmae, na-nirpa^inHae a^apMneHHe KHir 1920-x rr. He 3ay-cegH 6e3 naMbinaK pacпaзнaeццa nparpaMaM aK тэкcт, raTOBH BapbiaHT TaKcaMa naTpa6ye кapэк-цipовaк i 3BepKi 3 apbirrnanaM, thm 6onbm mTO mobh nanarKy XX ct. i nanarKy XXI ct. agpo3Hi-вaroццa y thm niKy ap^arpa^iaM, neKciKaM. na-gpyroe, He Ba ycix nparpaMax pacna3HaBaHHa y6y-gaBaHa Marnbrnac^ Bbi6apy 6enapycKaM mobh, mTO TaKcaMa 3Hi^ae aкacцb raTOBara тэкcтy i bh-Marae 6onbmyro коnbкacцb npaBaK. CynacHbia iH-^apMa^iMHbia тэxнanоrii ga3Banaro^ anpa^y-вaцb ^aMnbi aK 3 ycraneyKaM gagarKOBbix nparpaM Ha nepcaHanbH^i KaMn'rorap, TaK i 3 BbiKapbicraHHeM pэcypcay cycBeTHara ceцiвa a6o npнмaнaroццa gBa cnoca6b y cyкynнacцi. TaK, pacna3HaBaHHe тэкcтy MO^a npaвоgзiццa npa3 ycranaBaHyro Ha KaMn'ro-TapH nparpaMy ABBYY FineReader, aKaa y nepa-niKy mcrpyMeHTay yrpbiMniBae 6enapycKyro MOBy. fla THny iнтэpнeт-pэcypcay agноcaццa cэpвicн https:// convertio.co/ru/ocr/, https://tools.pdl24.org/ ru/ocr-pdf, Ha aKix MarabiMa npaводзiцb pa3HaeraM-HHa anepa^ii 3 PDF-^aMnaM: BbiayneHHe тэкcтa-Bara cnoa 3 BHKapHcTaHHeM 6enapycKaM mobh, KaHBepTa^iro y тэкcтaвн ^apMar. Tэкcтaвн cnoM TaKcaMa MarnbiMa pacnaзнaвaцb HacrynHbiM HbmaM: cnanaTKy yTbinrra Lightshot ganaMarae pa6iцb xyTKia $OTa3gbiMKi cTapoHKi KHiri, 3axoyBa^ ix, a noTHM тpэ6a 3arpy^a^ ManroHKi Ha cTapoHKy nepaKnagHHKa https://translate.yandex.by/ocr, g3e npaBog3^^ pa3na3HaBaHHe тэкcтy. napayHaHHe HeKanbKix PDF-gaKyMemay y thm niKy npagcray-neHa Ha HacTynHbix cэpвicax:

https://draftable.com/compare; https://www.diffchecker.com/pdf-diff; https://www.inetsoftware.de/products/pdf-content-comparer i iHm.

HeKaropbia 3 ix мaroцb niMiT 3arpy3Ki na Me-ra6aMTax i crapoHKax. flna ayTaMarbi3aBaHara aKac-Hara napayHaHHa PDF-^aMnay Hea6xogHa мeцb Bepciro gaKyMeHTa 3 тэкcтaвнм cnoeM, aKi MO^Ha

I. В. Науроцкая

77

атрымаць, карыстаючыся згаданым вышэй адра-сам https://tools.pdf24.org/ru/ocr-pdf.

У межах дысертацыйнага даследавання пра станауленне навуковага стылю намi праводзщца падбор матэрыялу i вычытка некаторых распаз-наных PDF-дакументау, папярэдне калекцыя навуковых тэкстау 1920-1930-х гг. складаецца з 85 тэкстау i амаль з 900 тыс. словаужыванняу. Тэксты прыкладна раунамерна размеркаваныя паводле трох падстыляу навуковага стылю. Ка-лекцыя апрацаваных тэкстау адкрывае перспек-тывы для пераутварэння у корпус шляхам дадання граматычнай разметкi i распрацоую адпаведна-га праграмнага забеспячэння.

Заключэнне. Такiм чынам, стварэнне корпуса (калекцыi, базы) навуковых тэкстау 19201930-х гг., а таксама распрацоука якаснага праграмнага забеспячэння з'яуляюцца неабходнымi для правядзення даследаванняу у галiне дыяхра-нiчнага мовазнауства, што дазволiць найбольш поуна апiсаць гiсторыю беларускай мовы, аса-блiвасцi складання яе нормау, стыляу, падстыляу навуковай разнавщнасщ i асэнсаваць спе-цыфiку функцыянавання на сучасным этапе. Тым больш што дыяхранiчныя даныя выступа-юць неад'емнай часткай лiнгвiстычных даследаванняу i iстотна дапауняюць аспекты шнхра-нii моунага развiцця.

Cnic л^аратуры

1. Барковiч А. А. Корпусная лшгвютыка i 1нтэрнэт // Роднае слова. 2014. № 9. С. 33-36.

2. Кошчанка У. Нацыянальны корпус беларускай мовы у кантэксце корпуснай лiнгвiстыкi сла-вянскiх краш [Электронны рэсурс]. URL: https://bnkorpus.info/articles/Artykul_Koscanki_2018.html. (дата звароту: 10.01.2021).

3. Волчек О. А., Порицкий В. В. Экспериментальный корпус белорусского языка: текущее состояние и перспективы развития // Труды Междунар. конф. «Корпусная лингвистика - 2013». Санкт-Петербург: Изд-во С.-Петерб. ун-та, 2013. С. 231-239.

4. Зубов А. В. О задачах создания подкорпуса текстов русских и белорусских учебников по языку и литературе // Карповские научные чтения: сб. науч. ст. Вып. 8: в 2 ч. / редкол.: А. И. Головня (отв. ред.) [и др.]. Минск: Белорусский Дом печати, 2014. Ч. 1. С.13-15.

5. Зубов А. В. Создание большого корпуса текстов белорусского языка и его использование для изучения белорусского языка и его связи с другими языками Европы // Труды Междунар. конф. «Корпусная лингвистика - 2019». СПб: Изд-во С.-Петерб. ун-та, 2019. С. 23-29.

6. Кадета Р., Капылоу I., Кошчанка У. Корпусная лшгвютыка як перспектыуны напрамак развщця беларуска-польсюх моуных сувязей // Acta Albaruthenica. T. 20. Warszawa: Katedra Bialorutenistyki Uniwersytetu Warszawskiego, 2020. C. 185-198.

7. Рычкова Л. В. Регионально распределённая полнотекстовая база данных в исследовании речевого облика районных газет Беларуси // Славянский мир и национальная речевая культура в современной коммуникации: сб. науч. тр. / гл. ред. М. И. Конюшкевич. Гродно: ГрГУ им. Янки Купалы, 2018. С. 79-82.

8. Станкевич А. Ю. Программные инструменты создания конкордансов для белорусскоязычных опорных единиц // Вестник МГЛУ Сер. 1, Филология. 2016. № 1 (80). С. 108-115.

9. Кошчанка У., Капылоу I., Мiклашэвiч I. Corpus Albaruthenicum як частка мiжнароднага праекта «ВalticGrid-II» // Наука и инновации. № 10 (92). 2010. С. 30-31.

10. Запрудсю С. М. Да пытання аб дынамцы узусу беларускай лггаратурнай мовы у 1920-1930-х гг. // Язык и социум: материалы V Междунар. науч. конф., Минск, 6-7 дек. 2002 г.: в 2 ч. Минск: РИВШ БГУ, 2003. Ч. 2. С. 173-177.

11. Запрудсю С. М. Беларускае мовазнауства i развщцё беларускай лггаратурнай мовы: 1920-я -1930-я гады. Мшск: БДУ, 2013. 367 с.

12. Псторыя беларускай кнш. Т. 2: Кшжнасць новай Беларус (Х1Х-ХХ1 стст.) / рэд. В. В. Анто-нау, М. В. Ншалаеу. Мшск: Бел. Энцыкл. iмя Петруся Броую, 2011. 435 с.

13. Науроцкая I. В. Крынщы навуковага стылю беларускай лтаратурнай мовы 1920-х гг. // Мова i лтаратура: матэрыялы 72-й навук. канф. студэнтау i астрантау фшал. фак. БДУ, Мшск, 28 крас. 2015 / пад рэд. К. А. Тананушю. Мшск: РШШ, 2015. С. 82-87.

14. Кулеш Г. I. Мова беларускага заканадауства ХХ стагоддзя: генезю i эвалюцыя. Мшск: БДУ, 2015. 303 с.

15. Киреева Г. В. Сводный каталог «Книга Беларуси»: к созданию полного библиографического репертуара белорусских изданий XVI-XVII вв. // Ыфармацыйныя рэсурсы Нацыянальнай бiблiятэкi Беларуси праблемы фармiравання i выкарыстання: зб. арт. / склад. Т. В. Кузьмшч. Мшск: Нац. б-ка Беларуси 2008. С. 120-129.

References

1. Barkovich A. A. Corpus linguistics and Internet. Rodnaye slova [Native word], 2014, no 9, pp. 33-36 (In Belarusian).

2. Koshchanka U. Natsyyanal'ny korpus belaruskay movy u kantekstse korpusnay lingvistyki slavyanskikh krain [National Corpus of the Belarusian Language in the context of Slavic countries

78

Aa nbiTaHHA a6 yKAaAaHHi Kopnyca 6eAapycKix HaByKOBbix T3KCTay 1920-1930-x rr.

corpus linguistics]. Available at: https://bnkorpus.info/articles/Artykul_Koscanki_2018.html. (accessed 10.01.2021).

3. Volchek O. A., Poritski V. V. An experimental corpus of Belarusian: its present and future. Trudy Mezhdunarodnoy konferentsii "Korpusnaya lingvistika - 2013" [Proceedings of the international conference «Corpus linguistics - 2013]. St. Petersburg, 2013, pp. 231-239 (In Russian).

4. Zubov A. V. On the tasks of creating a subcorpus of texts of Russian and Belarusian textbooks on language and literature. Karpovskiye nauchnyye chteniya: sbornik nauchnykh statey [Karpov Scientific Readings: Collection of Scientific Articles], issue 8: in 2 vol. Minsk. Vol 1. 2014, pp. 13-15 (In Rusian).

5. Zubov A. V. Creation of a large corpus of texts of Belarusian language and the use of it for invesiga-tion the Belarussian language and its connection with the different languages of European. Trudy Mezhdunarodnoy konferentsii "Korpusnaya lingvistika - 2019" [Proceedings of the international conference «Corpus linguistics - 2019]. St. Petersburg, 2019, pp. 23-29 (In Russian).

6. Kaleta R., Kapylou I., Koshchanka U. Corpus linguistics as a perspective direction for the development of Belarusian-Polish linguistic relations [Acta Albaruthenica], 2020, vol. 20, pp. 185-198. DOI: 10.32612/uw.18988091.2020.20.

7. Rychkova L. V. Regionally distributed full-text database in the study of the speech appearance of regional newspapers in Belarus. Slavyanskiy mir i natsional'naya rechevaya kul'tura v sovremennoy kom-munikatsii: sbornik nauchnykh trudov [Slavic world and national speech culture in modern communication: collection of scientific papers], Grodno, 2018, pp. 79-82 (In Russian).

8. Stankevich A. Yu. Concordancing software for Belarusian-speaking reference units. Vestnik MGLU [MSLU Bulletin], series 1, Philology, 2016, no 1 (80), pp. 108-115 (In Russian).

9. Koshchanka U., Kapylou I., Miklashevich I. Corpus Albaruthenicum as part of the international project "BalticGrid-II". Nauka i innovatsii [Science and innovation], 2010, no 10 (92), pp. 30-31 (In Belarusian).

10. Zaprudski S. On the question of the dynamics of the use of the Belarusian literary language in 1920-1930s. Yazyk i sotsium. Materialy V Mezhdunarodnoy nauchnoy konferentsii: 6-7 dekabrya 2002 g., Minsk [Language and society: materials of the V international scientific conference, Minsk, December 6-7, 2002]. Minsk, 2003, vol. 2, pp. 173-177 (In Belarusian).

11. Zaprudski S. Belaruskaye movaznaustva i razvitstsyo belaruskay litaraturnay movy: 1920-1930-ya gady [Belarusian linguistics and Belarusian Literary Language development: 1920-1930s]. Minsk, BDU Publ., 2013.367 p.

12. Gistoryya belaruskay knigi. T. 2: Knizhnasts' novay Belarusi (XIX-XXI stst.) [History of the Belarusian book. Vol. 2: The literature of the new Belarus (XIX-XXI centuries)]. Minsk, Belaruskaya Entsi-klapedyya imya Petrusya Brouki Publ., 2011. 435 p.

13. Naurotskaya I. V. Sources of the scientific style of the Belarusian literary language of the 1920s. Mova i litaratura: materyaly 72-y navukovay kanferentsyi studentau i aspirantau filalagichnaga fakul'teta BDU, Minsk, 28 krasavika 2015 [Language and Literature: Proceedings of the 72nd Scientific Conference of Students and Postgraduates of the Philological Faculty of BSU, Minsk, April 28, 2015], Minsk, 2015, pp. 82-87 (In Belarusian).

14. Kulesh G. I. Mova belaruskaga zakanadaustwa XXctagoddzya: genesis i evalutsyya [The language of Belarusian legislation of the twentieth century: genesis and evolution]. Minsk, BDU Publ., 2015. 303 p. Kulesh H. I. Language Belarusian legislation of the twentieth century: genesis and evolution. Minsk, Belarusian State University, 2015. 303 p. (In Belarusian).

15. Kireeva G. V. Consolidated catalog "The Book of Belarus": towards the creation of a complete bibliographic repertoire of Belarusian editions of the 16th - 17th centuries. Infarmatsyynyya resursy Natsyyanal'nay bibliyateki Belarusi: prablemy farmiravannya i vykarystannya: zbornik artykulau [Information resources of the National Library of Belarus: problems of formation and use: a collection of articles]. Minsk, 2008, pp. 120-129 (In Belarusian).

iH^apMa^ra npa ayTapa

Haypo^aa ipbma Ba.HH^HayHa - BbiKnagnbiK Ka^egpw arynbHaagyKa^iHHbix gbi^bmnrn. Eena-pycKi g3ap^ayHbi ymBepcroT rn^apMarbiKi i pagbi^neKTpomKi (220013, r. MrncK, Byn. n. EpoyKi, 6, Рэспy6mкa Eenapycb). E-mail: navrotskaya@bsuir.by

Information about the author

Naurotskaya Iryna Valyantsinauna - lecturer, the Department of General Subjects. Belarusian State University of Informatics and Radioelectronics (6, P. Brovki str., 220013, Minsk, Republic of Belarus). E-mail: navrotskaya@bsuir.by

nacmyniy 11.02.2021

i Надоели баннеры? Вы всегда можете отключить рекламу.