Научная статья на тему 'Структура словарной статьи Национального корпуса тувинского языка'

Структура словарной статьи Национального корпуса тувинского языка Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
222
30
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОРГАНИЗАЦИЯ СЛОВАРЕЙ / КОРПУС ТЕКСТОВ / СЛОВАРЬ / ТУВИНСКИЙ ЯЗЫК / ЭЛЕКТРОННЫЙ СЛОВАРЬ / MICROSOFT OFFICE ACCESS / DICTIONARY STRUCTURE / TEXTUAL CORPUS / DICTIONARY / TUVAN LANGUAGE / ELECTRONIC DICTIONARY

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Дагбажык Ангыр-Оол Сымчаан-Оолович

В настоящее время активно создаются корпусы естественных языков с помощью современных информационных технологий и методов математического моделирования. Под корпусом понимается информационно-справочная система, основанная на собрании оцифрованных текстов. Корпус включает в себя различные письменные и устные тексты, представленных в данном языке, различные типы словарей, а также разметку информацию о свойствах текстов. Разметка отличает корпус от электронных библиотек текстов. Для многих языков народов Российской Федерации, в том числе для тюркских языков, создаются национальные корпусы. Работа над формированием Национального корпуса тувинского языка ведется преподавателями, аспирантами и студентами Тувинского государственного и Сибирского федерального университетов. В статье представлена структура словарной статьи для Национального корпуса тувинского языка. База данных корпусного словаря включает следующие таблицы: MAIN основная таблица с заголовочным словом; RUS, ENG, GER таблицы с переводом заголовочного слова на различные языки; MORPHOLOGY таблица с морфологическими данными. База данных реализована в Microsoft Office Access. Для работы с корпусным словарем реализованы следующие функции: добавление новой статьи, редактирование статьи, удаление статьи, поиск словарной статьи с транскрипцией, формирование и визуализация морфологических признаков заглавного слова. Представленный проект позволяет рассматривать корпусный словарь как мультиструктурную организацию со сложным иерархическим строением, важнейшим корневым компонентом которого является словарная статья. Разработанный корпусный словарь может быть использован для изучения тувинского языка с точки зрения написания, произношения и толкования, а также для организации поиска слов и словосочетаний в текстах, хранящихся в корпусе.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Дагбажык Ангыр-Оол Сымчаан-Оолович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Contemporary information technologies and mathematical modelling has made creating corpora of natural languages significantly easier. A corpus is an information and reference system based on a collection of digitally processed texts. A corpus includes various written and oral texts in the given language, a set of dictionaries and markup information on the properties of the text. It is the presence of the markup which distinguishes a corpus from an electronic library. At the moment, national corpora are being set up for many languages of the Russian Federation, including those of the Turkic peoples. Faculty members, postgraduate and undergraduate students at Tuvan State University and Siberian Federal University are working on the National corpus of Tuvan language. This article describes the structure of a dictionary entry in the National corpus of Tuvan language. The corpus database comprises the following tables: MAIN the headword table, RUS, ENG, GER translations of the headword into three languages, MORPHOLOGY the table containing morphological data on the headword. The database is built in Microsoft Office Access. Working with the corpus dictionary includes the following functions: adding, editing and removing an entry, entry search (with transcription), setting and visualizing morphological features of a headword. The project allows us to view the corpus dictionary as a multi-structure entity with a complex hierarchical structure and a dictionary entry as its key component. The corpus dictionary we developed can be used for studying Tuvan language in its pronunciation, orthography and word analysis, as well as for searching for words and collocations in the texts included into the corpus.

Текст научной работы на тему «Структура словарной статьи Национального корпуса тувинского языка»

www.nit.tuva.asia

№ 4

2016

Novye issledovaniia Tuvy

СТРУКТУРА СЛОВАРНОЙ статьи

национального корпуса тувинского

ЯзЫКА

THE sTRUCTURE OF AN ENTRY IN THE NATIONAL

corpus of tuvan

LANGUAGE

Ангыр-оол С. Дагбажык

Сибирский федеральный университет

Angyr-ool S. Dagbazhyk

Siberian Federal University

В настоящее время активно создаются корпусы естественных языков с помощью современных информационных технологий и методов математического моделирования. Под корпусом понимается информационно-справочная система, основанная на собрании оцифрованных текстов. Корпус включает в себя различные письменные и устные тексты, представленных в данном языке, различные типы словарей, а также разметку — информацию о свойствах текстов. Разметка отличает корпус от электронных библиотек текстов.

Для многих языков народов Российской Федерации, в том числе для тюркских языков, создаются национальные корпусы. Работа над формированием Национального корпуса тувинского языка ведется преподавателями, аспирантами и студентами Тувинского государственного и Сибирского федерального университетов.

В статье представлена структура словарной статьи для Национального корпуса тувинского языка. База данных корпусного словаря включает следующие таблицы: MAIN — основная таблица с заголовочным словом; RUS, ENG, GER — таблицы с переводом заго-

Contemporary information technologies and mathematical modelling has made creating corpora of natural languages significantly easier. A corpus is an information and reference system based on a collection of digitally pro-cessed texts. A corpus includes various written and oral texts in the given lan-guage, a set of dictionaries and markup - information on the properties of the text. It is the presence of the markup which distinguishes a corpus from an electronic library.

At the moment, national corpora are being set up for many languages of the Russian Federation, including those of the Turkic peoples. Faculty members, postgraduate and undergraduate students at Tuvan State University and Siberian Federal University are working on the National corpus of Tuvan language.

This article describes the structure of a dictionary entry in the National corpus of Tuvan language.

Дагбажык Ангыр-оол Сымчаан-оолович — аспирант Института математики и фундаментальной информатики Сибирского федерального университета (г. Красноярск). Адрес: 660041, Россия, г. Красноярск, пр. Свободный, 79, ауд. 34-03. Тел.: +7 (391) 206-21-48. Эл. адрес: angyrool-d@ mail.ru Научный руководитель — д-р физ.-мат. н., проф. В. В. Быкова.

Dagbazhyk Angyr-ool Symchaan-oolovich, Postgraduate student, Institute of Mathematics and Fundamental Information Technology, Siberian Federal University. Postal address: Room 34-03, 79 Svo-bodny Pr., 660041 Krasnoyarsk, Russian Federation. Tel.: +7 (391) 206-21-48. Email: angy-rool-d@ mail.ru. Research advisor: Doctor of Physics and Mathematics, Pro-fessor V.V. Bykova.

www.nit.tuva.asia

№ 4

2016

Novye issledovaniia Tuvy

ловочного слова на различные языки; MORPHOLOGY — таблица с морфологическими данными. База данных реализована в Microsoft Office Access.

Для работы с корпусным словарем реализованы следующие функции: добавление новой статьи, редактирование статьи, удаление статьи, поиск словарной статьи с транскрипцией, формирование и визуализация морфологических признаков заглавного слова.

Представленный проект позволяет рассматривать корпусный словарь как мультиструктурную организацию со сложным иерархическим строением, важнейшим корневым компонентом которого является словарная статья. Разработанный корпусный словарь может быть использован для изучения тувинского языка с точки зрения написания, произношения и толкования, а также для организации поиска слов и словосочетаний в текстах, хранящихся в корпусе.

Ключевые слова: организация словарей; корпус текстов; словарь; тувинский язык; электронный словарь; Microsoft Office Access

The corpus database comprises the following tables: MAIN - the headword table, RUS, ENG, GER — translations of the headword into three languages, MORPHOLOGY — the table containing morphological data on the headword. The database is built in Microsoft Of-fice Access.

Working with the corpus dictionary includes the following functions: adding, editing and removing an entry, entry search (with transcription), set-ting and visualizing morphological features of a headword.

The project allows us to view the corpus dictionary as a multi-structure entity with a complex hierarchical structure and a dictionary entry as its key component. The corpus dictionary we developed can be used for studying Tu-van language in its pronunciation, orthography and word analysis, as well as for searching for words and collocations in the texts included into the corpus.

Keywords: dictionary structure; textual corpus; dictionary; Tuvan lan-guage; electronic dictionary; Microsoft Office Access

В настоящее время активно создаются корпусы естественных языков с помощью современных информационных технологий и методов математического моделирования. Под корпусом понимается информационно-справочная система, основанная на собрании оцифрованных текстов. Корпус включает в себя различные письменные и устные тексты, представленных в данном языке, различные типы словарей, а также разметку — информацию о свойствах текстов. Разметка отличает корпус от электронных библиотек текстов (Салчак, Байыр-оол, 2013). Традиционно в корпусах используются следующие типы разметки: метатексто-вая, морфологическая, синтаксическая, семантическая и др. Чем богаче и разнообразнее разметка, тем выше научная и учебная ценность корпуса. На основании корпусов решаются многие филологические и лингвистические задачи.

Для многих языков народов Российской Федерации, в том числе для тюркских языков, создаются национальные корпусы. Работа над формированием Национального корпуса тувинского языка ведется преподавателями, аспирантами и студентами Тувинского государственного и Сибирского федерального университетов (Бавуу-Сюрюн, 2010: Электр. ресурс; Салчак, Байыр-оол, 2013).

Словари — важная часть корпуса. Различают несколько типов словарей. Словари в корпусах, как правило, многофункциональны. Корпусный словарь содержит всю лингвистическую информацию о каждом слове. Различают следующие типы корпусных словарей: диалектные, грамматические, орфографические, словообразовательные, переводные.

www.nit.tuva.asia

№ 4

2016

Novye issledovaniia Tuvy

Диалектные словари — разновидность толковых словарей, описывающих лексику одного или группы говоров (диалектов). Диалект — разновидность данного языка, употребляемая в качестве средства общения между лицами, связанными тесной территориальной, социальной или профессиональной общностью. Грамматические словари — это словари, которые содержат сведения о морфологических и синтаксических свойствах слова. Морфология — раздел грамматики, изучающий части речи, их категории и формы слов. Синтаксис — раздел лингвистики, изучающий строение словосочетаний и предложений. Орфографические словари содержат правила написания слова при письме. Орфоэпические словари — словари, отражающие правила произношения. Орфоэпия — раздел фонетики, занимающийся нормами произношения, их обоснованием и установлением. Словообразовательные словари — словари, отражающие словообразовательную структуру слов. Слова в словообразовательных словарях приводятся с расчленением на морфемы и с ударением.

Переводные словари — словари, содержащие сопоставление слова одного языка с их переводным эквивалентом на другом языке (или на нескольких других языках, в таком случае переводной словарь является многоязычным). Переводные словари условно разделяют на две большие группы:

• общелексические переводные словари. Переводят общую лексику с одного языка на другой или на несколько иностранных языков;

• научные, научно-технические и технические переводные словари. Включают в себя специальные термины по основным отраслям науки.

Несмотря на то, что существуют различные типы словарей, в их структуре можно выделить составные части, присутствующие под разными названиями практически во всех словарях. К таким элементам относятся:

• введение или предисловие (Introduction);

• раздел «Как пользоваться словарем» (User's Mannual);

• ключ к системе транскрипции, применяемой в словаре (Keys to the Transcription);

• список сокращений, используемых в словаре (Contractions);

• корпус словаря (Corpus или The Body of the Dictionary), то есть основной список слов, представленных их словарными статьями;

• дополнительный материал, то есть различные приложения (Ссорина, 2011).

Основу корпусного словаря составляют словарные статьи. Лингвистом Л.П.Ступиным в англо-русских переводных словарях выделены следующие части словарной статьи:

www.nit.tuva.asia

№ 4

2016

Novye issledovaniia Tuvy

• entryword / catchword / headword— заглавное слово,

• sense / meaningoftheword — значение слова,

• definition — толкование, определение,

• verbalillustration / quotation — цитата, иллюстрация,

• reference — отсылка,

• label — метка,

• status label — метка о временной или территориальной ограниченности употребления слова,

• regional label — метка о территориальной употребительности слова,

• functional label — метка о принадлежности слова к части речи,

• subject label — метка о принадлежности слова к определенной области знаний (Ступин, 1985).

При разработке словаря для корпуса тувинского языка нами взята словарная статья со следующей структурой:

1) заглавное слово,

2) перевод (на русский язык, на английский язык и на другие языки),

3) транскрипция,

4) звучание заглавного слова,

5) метка о морфологических признаках (часть речи, число, падеж, склонение, спряжение),

6) значение слова,

7) этимологическая справка,

8) метка о принадлежности к аббревиатурам,

9) метка о наличии синонима, омонима и антонима,

10) дополнительная информация о слове.

База данных корпусного словаря включает следующие таблицы: MAIN — основная таблица с заголовочным словом; RUS, ENG, GER — таблицы с переводом заголовочного слова на различные языки; MORPHOLOGY — таблица с морфологическими данными. Структура этих таблиц представлена на рис. 1-4.

www.nit.tuva.asia

№ 4

2016

Novye issledovaniia Tuvy

ЗЭ main \

Имя поля Тип данных Описание (необя

entryjd Очетчии идентификатор для заголовочного слова

article Короткий текст заголовочное слово

mean Длинный текст значение слова

transcription Короткий текст транскрипция слова

example Длинный текст примеры применения слова в предложениях и в речи

speech Числовой помета о принадлежности части речи

Рисунок 1. Структура таблицы MAIN Fig.1. MAIN table structure

rus \

Имя поля Тип данных Опи

rus id Счетчик идентификатор для слова на русском

russian Короткий текст слово на русском языке

entry_id Числовой используется для связи стаблицей плат

Рисунок 2. Структура таблицы RUS Fig.2 RUS table structure

Э eng \

Имя поля Тип данных Опи(

engjd Счетчик идентификатор для слова на английском]

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

english Короткий текст слово на английском языке

entry id Числовой используется для связи стаблицей main

Рисунок 3. Структура таблицы ENG Fig.3 ENG table structure

morphology \

Имя поля Тип данных Опи

entryjd Числовой используется для связи стаблицей та!п|

casejl Короткий текст падеж 1

case_2 Короткий текст падеж 2

case_3 Короткий текст падеж 3

case_4 Короткий текст падеж 4

case_5 Короткий текст падеж 5

case 6 Короткий текст падеж 6

case_7 Короткий текст падеж 7

case_S Короткий текст падеж 3

case_9 Короткий текст падеж 9

Рисунок 4. Структура таблицы MORPHOLOGY Fig.4. MORPHOLOGY table structure

www.nit.tuva.asia

№ 4

2016

Novye issledovaniia Tuvy

База данных реализована в Microsoft Office Access.

Для работы с корпусным словарем реализованы следующие функции: добавление новой статьи (рис. 5), редактирование статьи (рис. 6), удаление статьи (рис. 7), поиск словарной статьи с транскрипцией (рис. 8), формирование и визуализация морфологических признаков заглавного слова (рис. 9).

Рисунок 5. Интерфейс для добавления новой словарной статьи Fig.5 Adding a new dictionary entry interface

Рисунок 6. Интерфейс для редактирования статьи Fig.6 Editing an entry interface

www.nit.tuva.asia

№ 4

2016

Novye issledovaniia Tuvy

Словарь

& О

^ Личный кабинет Jt Друзья 2

Сообщения 5 ) События liill Статистика

Добавить статью

албадал Монгуш М.М. 15.02.2016 Ш х

албадал Монгуш М.М. 15.02.2016 Ш х

албадал Монгуш М.М. 15.02.2016 Ш х

албадал Монгуш М.М. 15.02.2016 Ш х

албадал Монгуш М.М. 15.02.2016 Ш х

албадал Монгуш М.М. 15.02.2016 Ш х

албадал Монгуш М.М. 15.02.2016 Ш х

албадал Монгуш М.М. 15.02.2016 it х

Рисунок 7. Интерфейс для удаления статьи Fig.7. Entry removal interface

+ Количество на стр

»wipe«« + I lt«tH + «55 ■ 44 afcjjii д*|л«юм НИ • 4Д&ЫЫ jUliltHHt ■ ИМИ' ¿МЛ«№Ч ■ 44 itimii* jutuciwt ' 44 JJMCHW ■ тувинский

transcription |Ц')) албадал

44 ллбеды ДШКПИГ m 44 liihwi дилсьнг Mil • 44 ллблдля A»snrnw HB 44 олСвда»* -44 ллбдлдл довлрниг 44 лЖлла* jUnArrMr ■■ ' 44 "*мд.. А-"— ■■ -44 i.VUAÀt дмлгнм- Р— + Н»)) албадал Н1)) албадал албадал

44 *Ж>и*> ¿мл» ни* ■

Рисунок 8. Поиск словарной статьи с транскрипцией Fig.8. Entry search interface with transcription

Рисунок 9. Морфологические

признаки заглавного слова

Fig.9 Morphological features of a headword

www.nit.tuva.asia

№ 4

2016

Novye issledovaniia Tuvy

Представленная выше структура словарной статьи и ее реализация в Microsoft Office Access позволяет рассматривать корпусный словарь как мультиструктур -ную организацию со сложным иерархическим строением, важнейшим корневым компонентом которого является словарная статья. Словарная статья является единицей корпусного словаря, которую можно формировать в различных аспектах и использовать для различных назначений: изучение тувинского языка с точки зрения написания, произношения, толкование, перевода на другие языки; формирование морфологической, синтаксической и семантической разметки текстов, входящих в корпус; играть роль тезауруса при анализе текстов; для организации поиска в корпусе.

Разработанный корпусный словарь может быть использован для изучения тувинского языка с точки зрения написания, произношения и толкования, а также для организации поиска слов и словосочетаний в текстах, хранящихся в корпусе.

В дальнейшем предполагается выполнение работ по формированию корпусного двуязычного словаря (тувинско-русского и русско-тувинского) с заполнением основных полей словарных статей преподавателями, аспирантами и студентами Тувинского государственного и Сибирского федерального университетов.

Бавуу-Сюрюн, М. В. (2010) Тувинский язык на современном этапе [Электронный ресурс] // Новые исследования Тувы. № 3. URL: http://www.tuva.asia/journal/ issue_7/2158-bavyy-suyruyn-mv.html (дата обращения: 12.09.2016).

Салчак, А. Я., Байыр-оол, А. В. (2013) Электронный корпус тувинского языка: состояние, проблемы // Мир науки, культуры, образование. № 6. С. 408-409.

Ссорина, М. С. (2011) Словарь как мультиструктурная организация // Ярославский педагогический вестник. № 1. Т. 1. Гуманитарные науки. С. 142-146.

Ступин, Л. П. (1985) Лексикография английского языка : учебное пособие. М.: Высшая школа. 185 с.

REFERENCES

Bavuu-Siuriun, M. V. (2010) Tuvinskii iazyk na sovremennom etape. Novye issledovaniia Tuvy, no. 3 [online] Available at: http://www.tuva.asia/journal/ issue_7/2158-bavyy-suyruyn-mv.html (access data: 12.09.2016). (In Russ.).

СПИСОК ЛИТЕРАТУРЫ

Дата поступления: 20.10.2016 г.

www.nit.tuva.asia

№ 4

2016

Novye issledovaniia Tuvy

Salchak, A. Ia. and Baiyr-ool, A. V. (2013) Elektronnyi korpus tuvinskogo iazyka: sostoianie, problem. Mir nauki, kul'tury, obrazovanie, no. 6, pp. 408-409. (In Russ.).

Ssorina, M. S. (2011) Slovar' kak mul'tistrukturnaia organizatsiia. Iaroslavskii pedagogicheskii vestnik, no. 1, vol. 1. Gumanitarnye nauki, pp. 142-146. (In Russ.).

Stupin, L. P. (1985) Leksikografiia angliiskogo iazyka : uchebnoe posobie. Moscow, Vysshaia shkola. 185 p. (In Russ.).

Библиографическое описание статьи:

Дагбажык А. С. Структура словарной статьи Национального корпуса тувинского языка [Электронный ресурс] // Новые исследования Тувы. 2016, № 4. URL: http://nit. tuva.asia/nit/article/view/612 (дата обращения: дд.мм.гг.).

Citation:

Dagbazhyk A. S. The structure of an entry in the National corpus of Tuvan language. Novye issledovaniia Tuvy, 2016, no. 4 [on-line] Available at: http://nit.tuva.asia/nit/article/view/612 (accessed: ...).

Submission data: 20.10.2016.

i Надоели баннеры? Вы всегда можете отключить рекламу.