Научная статья на тему 'Электронный корпус тувинского языка: состояние, проблемы'

Электронный корпус тувинского языка: состояние, проблемы Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
184
52
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ТУВИНСКИЙ ЯЗЫК / ЭЛЕКТРОННЫЙ КОРПУС / БАЗА ДАННЫХ / РАЗМЕТКА ТЕКСТОВ / ФОРМАЛЬНО-МОРФОЛОГИЧЕСКИЙ ПОДХОД / ЭЛЕКТРОННЫЙ СЛОВАРЬ / ЧАСТОТНЫЙ СЛОВАРЬ / TUVAN LANGUAGE / ELECTRONIC HOUSING / DATABASE / FORMATTING / FORMAL MORPHOLOGICAL METHOD / ELECTRONIC DICTIONARY / FREQUENCY WORD BOOK

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Салчак А. Я., Байыроол А. В.

Статья посвящена основным этапам создания электронного корпуса тувинского языка, проблемам разработки, а также основным результатам, полученным в ходе выполнения проекта РГНФ «Электронный корпус текстов тувинского языка».

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ELECTRONIC HOUSING OF TUVAN LANGUAGE: CONDITION, ISSUES

. The article dedicates to main stages of creation of the electronic housing of Tuvan language, to the development issues and to the main results, gotten by the implementing the project of «Electronic housing of Tuvan language texts»

Текст научной работы на тему «Электронный корпус тувинского языка: состояние, проблемы»

16. Chernaya, L.A. Filosofsko-antropologicheskiyj podkhod k izucheniyu slavyanskikh kuljtur // Slavyanskie literaturih. Kuljtura i foljklor slavyanskikh narodov. XII Mezhdunarodnihyj sjhezd slavistov: dokladih rossiyjskoyj delegacii. - M., 1998.

17. Chernaya, L.A. Russkaya kuljtura perekhodnogo perioda ot Srednevekovjya k Novomu vremeni. - M., 1999.

18. Uzhankov A.N. Stadialjnoe razvitie russkoyj literaturih XI - pervoyj treti XVIII veka. Teoriya literaturnihkh formaciyj. - M., 2008.

19. Uzhankov A.N. O specifike razvitiya russkoyj literaturih XI - pervoyj treti XVIII veka. Stadii i formacii. - M., 2009.

20. Panchenko, A.M. Istoriya i teoriya // Rus. lit. - 1981. - № 3.

21. Kovtun. L.S. Novihyj trud o drevnikh teoriyakh iskusstva slova na Rusi / L.S. Kovtun, V.V. Kolesov // Trudih Otdela drevnerusskoyj literaturih

/ Akademiya nauk SSSR; Institut russkoyj literaturih. - L., 1983. - T. 37.

22. Malek, Eh. Mesto i rolj svetskoyj povestvovateljnoyj prozih v literaturnoyj kuljture Rusi XVII - pervoyj treti XVIII veka // Acta Universitatis Lodziensis. Folia litteraria 32, 1992.

23. Eliza Malek. «Nepoleznoe chtenie» v Rossii XVII-XVIII vekov. Lodz, Wydawnictwo naukowe PWN, 1992.

Статья поступила в редакцию 29.10.2013

УДК 81. SalchakA.Ya., Bayir-oolA.V. ELECTRONIC HOUSING OF TUVAN LANGUAGE: CONDITION, ISSUES. The article dedicates to main stages of creation of the electronic housing of Tuvan language, to the development issues and to the main results, gotten by the implementing the project of «Electronic housing of Tuvan language texts»

Key words: Tuvan language, electronic housing, database, formatting, formal morphological method, electronic dictionary, frequency word book

А.Я. Салчак, канд. филол. наук, ст. преп. каф. тувинской филологии и общего языкознания Тувинского гос. университета, г. Кызыл, Е-таИ: [email protected]; А.В. Байыр-оол, канд. филол. наук, н.с. Института филологии СО РАН, г. Кызыл, Е-таИ: [email protected].

ЭЛЕКТРОННЫЙ КОРПУС ТУВИНСКОГО ЯЗЫКА: СОСТОЯНИЕ, ПРОБЛЕМЫ*

Статья посвящена основным этапам создания электронного корпуса тувинского языка, проблемам разработки, а также основным результатам, полученным в ходе выполнения проекта РГНФ «Электронный корпус текстов тувинского языка».

Ключевые слова: тувинский язык, электронный корпус, база данных, разметка текстов, формальноморфологический подход, электронный словарь, частотный словарь.

Работа над проектом создания электронного корпуса тувинского языка началась в 2011 г. при финансовой поддержке РГНФ. Инициаторами проекта выступили преподаватели филологического факультета, научные сотрудники научно-образовательного центра «Тюркология» Тувинского государственного университета.

Цель проекта - создание электронного корпуса тувинского языка, систематизированного собрания лингвистических банков данных, предназначенных для последующей комплексной автоматизации научных исследований и прикладных разработок в области тувинского языкознания.

Корпусом языка называется собрание текстов на этом языке, в котором текстам или их фрагментам (абзацам, предложениям, словоформам или даже морфемам) приписана дополнительная лингвистически релевантная информация (аннотация) и которое снабжено поисковым механизмом, позволяющим производить поиск по этой информации. Аннотация может включать в себя любую информацию, в зависимости от задач, стоящих перед создателями корпуса и исследователями. Основная задача корпуса - предоставить исследователю языка возможность быстро получать реальные языковые примеры по заданному запросу и выяснять относительную частоту появления в текстах языковых объектов, соответствующих этому запросу [1, с. 24].

Одним из основных этапов создания корпуса является сбор текстов, включающий оцифровку (ручной набор, сканирование и конвертация в наиболее удобный формат) и выверку. Предполагается, что объем создаваемого корпуса будет составлять около 1 млн. словоупотреблений.

Все тексты собираются в формате DOC, так как при наборе художественных текстов на первых порах старались сохранить все особенности бумажного первоисточника вплоть до нумерации страниц, особое внимание обращалось удалению в словах знаков переноса. Большинство текстов, которые переходят в наши руки от самих писателей или от издательств, были написаны еще в документах, которые были созданы в старых версиях Word. В них использовались шрифты, которые были переделаны из стандартных шрифтов компании Microsoft, они не являлись официально зарегистрированными и использовались только в Республике Тыва и используются до сих пор на компьютерах со старым программным обеспечением (в частности, шрифт Tuwa New).

Выверка текстов (форматирование, удаление имеющихся

в них ошибок и опечаток) стандартизация их по единым параметрам составляют значительную часть работы исполнителей проекта в виду и большого увеличивающегося с каждым днем объема текстов.

Для сбора тувинских текстов и их перевода в цифровой вид были привлечены студенты специальности «Родной язык и литература» филологического факультета ТувГУ. На базе Научнообразовательного центра «Тюркология» было создано Студенческое бюро, где студенты осуществляли набор, сканирование и вычитку текстов. Чтобы активизировать работу по сбору текстов, с 2012 года совместно с Институтом развития национальной школы созданы в некоторых районных школах Республиканские инновационные площадки, где учителя и ученики занимаются набором текстов писателей своего района. Научными руководителями выступают исполнители проекта «Электронный корпус текстов тувинского языка». В частности, в Чаа-Хольской средней школе ученики под руководством своих наставников занимаются переводом в электронный вид произведений Народного писателя Тувы Александра Александровича Даржая. В Ак-дуругской школе приступили к набору произведений Шомаады-ра Куулара.

В республике к переводу в цифровой вид своих архивов и фондов приступила Национальная библиотека им. А.С. Пушкина. Данная оцифровка большей частью представляет собой отсканированные, но не обработанные тексты 19 века. Переводят в электронный вид произведения, написанные в этот период вне зависимости от того, на каком языке они написаны (на русском, на тувинском).

Одним их источников пополнения текстов может являться тувиноязычный интернет, который, возможно, способствует сокращению технологической составляющей за счет сканирования, конвертации, распознавания и выверки.

В конце 2012 г. была запущена онлайн-версия республиканской общественно-политической газеты «Шын» (Правда) по адресу www.shyn.ru [2]. В газете на тувинском языке материалы о политической, экономической, общественной, культурной жизни Тувы. Данный ресурс послужит отличным источником пополнения газетных текстов.

Можно также привести сайт http://tyvadyl.ru [3] адресованный школьникам, родителям и учителям, преподавателям и ис-

следователям тувинского языка и литературы, а также всем тем, кто интересуется тувинской культурой, литературой и тувинским языком. Личный сайт журналиста О. Дамба-Хуурака -http://orlan.tuva.ru/ [4] сайт http://kuular.ru [5], посвященный творчеству писателя и журналиста Ш. Куулара и некоторые другие сайты.

На этапе сбора текстов важным является паспортизация текстов, т.е. приписывание каждому тексту определенной металингвистической информации. В метаописание текстов ЭКТЯ включаются сведения об авторе, библиографические сведения, жанровые и стилевые особенности текстов, а также богатая тувинская литература, на наш взгляд, позволяет включить и сведения относительно тематики произведений и текстов. При выборе источников для сбора в первую очередь были выбраны произведения тувинских писателей советского периода, основателей тувинской литературы С.А. Сарыг-оола, С.К. Токи, писателей второго поколения М.Б. Кенин-Лопсана, К-Э. К. Куда-жы, С.С. Сюрюн-оола, Е.Д. Тановой, а также писателей современного периода Э.Л. Донгака, Н.Ш. Куулара, Ш.М. Куулар, З.С. Байсаловой, Ш.М. Сувана и некоторых других авторов.

Многие тексты произведений писателей советского периода и писателей второго поколения являются на сегодняшний день недоступными для широкого круга читателей, многие не переиздавались и зачастую в библиотеке имеются в единственном экземпляре. Одним из немаловажных критериев выбора произведения в будущем корпусе, кроме жанровых и стилевых параметров, будет также тематика текстов.

Наиболее важной частью создания корпусов является разметка текстов, основное внимание уделяется разработке механизмов лингвистической разметки текстов.

На начальных этапах процесса аннотирования (разметки) текстов является необходимым наличие текстов, словаря и составление системы морфологического анализа. И для разработки этой системы необходимы описание морфологической системы языка, т.е. всех частей речи, грамматических значений, способов их выражения, разрядов слов с одинаковым словоизменением и т.д. Для тувинского языка исполнителями проекта эта работа была выполнена и результат представлен в виде словоизменительных таблиц, где приведены все словоизменительные формы и их варианты имен, местоимений и словоизменительные и формообразовательные (залоговые) формы глаголов (в презентацию образец таблиц). На основе данных составленных таблиц были построены словоизменительные модели имени, глагола. Отдельно для деепричастий и причастий.

Для будущей разметки текстов выбран «формально-морфологический» подход, согласно которому каждой встреченной в тексте словоформе, отличающейся по набору буквенных знаков от других словоформ, присваивается некоторый ярлык в зависимости от реально стоящей за ней грамматико-семанти-ческой или синтактико-семантической информации. Для обозначения грамматических признаков вводится система сокращенных грамматических помет на основе латинского алфавита и латинских названий грамматических категорий, используемых в общем языкознании. Например, если в тексте встретилась словоформа ажылдадым ‘я работал' (глагол ажылда=, прош. время на =ды, 1-ое л. ед. ч. =м), то она будет помечена следующим образом: Rv=Past1=1sg. Для более широкого охвата количества пользователей ЭКТТЯ предполагается, что поиск грамматических форм может производиться как по сокращенным граммати-

Библиографический список

ческим пометам на латинском языке, так и по сокращенным терминам на русском и тувинском языках: DAT / Д. п./ Б.п.

В морфологической разметке электронного корпуса тувинского языка на данном этапе работы определенными пометами обозначены грамматические признаки имени и глагола, структура словоформ и морфемы с возможными фонетическими вариантами. Образцы морфологической разметки имени и глагола представлены в виде таблиц. Для составления таблиц были использованы также данные Морфемного словаря, разработанного М.В. Бавуу-Сюрюн. Предлагаемый словарь является «гибридным», так как он призван давать как морфемную структуру слова, так и его словообразовательное гнездо. Также словарь дает возможность использовать его как орфографический. Орфографический словарь издавался в последний раз в 1967 году и с тех пор не переиздавался. Между тем в практике преподавания тувинского языка необходимы различного вида грамматические и справочные словари.

Словник данного словаря составлен на основе Тувинско-русского (1968), орфографического словарей (1967), дополнен новообразованиями, вошедшими в язык в последние годы. Не дается отдельно морфемная структура омонимов, омоформы рассматриваются каждый в отдельности.

Созданы программы для ЭВМ «Частотный словарь по художественным произведениям на тувинском языке» (свид. № 2012618172), «Поиск словоформ и морфем тувинского языка» (свид. № 2012618171), база данных «Аналитические скрепы тувинского языка» (свид. № 2012621105).

Таковы основные результаты и состояние на сегодняшний день работы над корпусом тувинского языка.

Основными проблемами на сегодняшний день являются разработка парсера (программа, способная размечать текст, т.е. при помощи которого вносится в тексты вся грамматическая информация) и создание или адаптация уже существующей поисковой системы, то есть проблемы технического характера.

В качестве программ-парсеров могли бы служить активно используемые многими лингвистами программы полуавтоматического глоссирования текстов ToolBox и FieldWorks, а в качестве поисковых программ система онлайного поиска по мультимедийным данным ELAN; поисковик по глоссированным корпусам Search Tool. Данные программы удобны для небольших по объему корпусов, однако для крупных они практически не приемлемы, поскольку требуют очень больших затрат.

Изучая опыт лингвистов по созданию корпусов по другим языкам, мы отметили, что многие после публикации восточноармянского корпуса переняли http://www.eanc.net/ [6] и адаптировали и адаптируют их поисковую платформу (интернет-движок EANC). Причем движок EANC успешно адаптируется и работает на материале типологически разных языков (армянский, осетинский, лезгинский, албанский, малые языки Дагестана), а также для близкого к тувинскому агглютинативного калмыцкого. А также заимствуется и адаптируется система автоматического морфологического анализа Uniparser (разработчик - Архангельский Т.А.)

На данном этапе работа по созданию электронного корпуса тувинского языка продолжается, исполнители проекта занимаются решением проблем, связанных с разработкой поисковых программ.

* Статья подготовлена при финансовой поддержке РГНФ, проект № 11-04-12073в «Электронный корпус текстов тувинского языка»

1. Архангельский, Т.А. Корпуса албанского, калмыцкого, лезгинского и осетинского языков // Научно-техническая информация. - 2012. -№ 4. - Сер. 2. Информационные процессы и системы.

2. [Э/р]. - Р/д: www.shyn.ru

3. [Э/р]. - Р/д: http://tyvadyl.ru

4. [э/р]. - Р/д: http://orlan.tuva.ru/

5. [э/р]. - Р/д: http://kuular.ru

6. [Э/р]. - Р/д: http://www.eanc.net/

Bibliography

1. Arkhangeljskiyj, T.A. Korpusa albanskogo, kalmihckogo, lezginskogo i osetinskogo yazihkov // Nauchno-tekhnicheskaya informaciya. - 2012. - № 4. - Ser. 2. Informacionnihe processih i sistemih.

2. [Eh/r]. - R/d: www.shyn.ru

3. [Eh/r]. - R/d: http://tyvadyl.ru

4. [Eh/r]. - R/d: http://orlan.tuva.ru/

5. [Eh/r]. - R/d: http://kuular.ru

6. [Eh/r]. - R/d: http://www.eanc.net/

Статья поступила в редакцию 22.11.13

i Надоели баннеры? Вы всегда можете отключить рекламу.