Научная статья на тему 'Монголоязычные корпуса: современное состояние'

Монголоязычные корпуса: современное состояние Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
426
50
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОРПУСНАЯ ЛИНГВИСТИКА / CORPUS LINGUISTICS / МОНГОЛЬСКИЕ ЯЗЫКИ / MONGOLIAN LANGUAGES / ЯЗЫКОВОЙ КОРПУС / РАЗМЕТКА / TAGGING / LINGUISTICS CORPUS

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Бадмаева Любовь Дашинимаевна

Корпусная лингвистика, ставшая сегодня полноправной научной дисциплиной, развивается и на базе монгольских языков, оформляя свое направление как монголоязычная корпусная лингвистика. История составления корпусов по монгольским языкам в современном смысле началась не так давно и по времени охватывает около двух десятков лет. Формирование любой научной дисциплины идет этапами. Складывание корпусной лингвистики как научной дисциплины можно условно разделить первоначально на два основных этапа. Первый этап период непосредственного составления самих языковых корпусов, второй период развития лингвистики в новой научной парадигме, которая обусловлена использованием данных уже созданных корпусов. В монголистике же в данное время можно наблюдать в основном первый из названных этапов, связанный с формированием монголоязычных корпусных ресурсов Монгольский корпус, Калмыцкий корпус, Национальный корпус калмыцкого языка, Бурятский корпус. Помимо своей научной и образовательной значимости, корпусные языковые ресурсы вносят весомый вклад в решение проблем долговременного сохранения культурного наследия монгольских народов в киберпространстве. Вместе с решением задач дальнейшего продвижения монголоязычных корпусных проектов встают задачи выработки путей их координации ввиду как территориальной, так и государственной разобщенности самих монгольских языков.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Corpora of the Mongolian languages: modern state

Corpus linguistics has become a full-fledged scientific discipline, and now continues developing based on the Mongolian languages, forming itself as the Mongolian corpus linguistics. History of compiling of corpora of the Mongolian languages in the modern sense covers about two decades. Formation of the corpus linguistics as a discipline can be divided into two main stages: the first one is the period of plain compiling linguistic corpus, the second is the period of development of linguistics in the new scientific paradigm, which is due to data usage of already existing corpora. In Mongolian linguistics today we can see the first of these steps related with the formation of the Mongolian corpus resources: Mongolian corpus, Kalmyk corpus, National Corpus of the Kalmyk language and Buryat corpus. In addition to its scientific and educational significance, corpus linguistic resources make a significant contribution to solving the problems of long-term preservation of the cultural heritage of the Mongolian peoples in cyberspace. Together with the tasks to further promote the Mongolian corpora such projects develop ways of coordination due to both territorial and state disunity of the Mongolian languages.

Текст научной работы на тему «Монголоязычные корпуса: современное состояние»

ВОСТОКОВЕДЕНИЕ

УДК 811.512, 81'322

Монголоязычные корпуса: современное состояние

© Бадмаева Любовь Дашинимаевна

кандидат филологических наук, доцент, ведущий научный сотрудник отдела языкознания Института монголоведения, буддологии и тибетологии СО РАН

Россия, 670047, Улан-Удэ, ул. Сахьяновой, 6

E-mail: [email protected]

Корпусная лингвистика, ставшая сегодня полноправной научной дисциплиной, развивается и на базе монгольских языков, оформляя свое направление как монголоязычная корпусная лингвистика. История составления корпусов по монгольским языкам в современном смысле началась не так давно и по времени охватывает около двух десятков лет. Формирование любой научной дисциплины идет этапами. Складывание корпусной лингвистики как научной дисциплины можно условно разделить первоначально на два основных этапа. Первый этап — период непосредственного составления самих языковых корпусов, второй — период развития лингвистики в новой научной парадигме, которая обусловлена использованием данных уже созданных корпусов. В монголистике же в данное время можно наблюдать в основном первый из названных этапов, связанный с формированием монголоязычных корпусных ресурсов — Монгольский корпус, Калмыцкий корпус, Национальный корпус калмыцкого языка, Бурятский корпус. Помимо своей научной и образовательной значимости, корпусные языковые ресурсы вносят весомый вклад в решение проблем долговременного сохранения культурного наследия монгольских народов в киберпространстве. Вместе с решением задач дальнейшего продвижения монголоязычных корпусных проектов встают задачи выработки путей их координации ввиду как территориальной, так и государственной разобщенности самих монгольских языков.

Ключевые слова: корпусная лингвистика, монгольские языки, языковой корпус, разметка.

Corpora of the Mongolian languages: modern state

Liubov D. Badmaeva

PhD, А/Frofessor, leading research fellow, Department of linguistics, Institute of Mongolian, Buddhist and Tibetan studies, Russian Academy of Sciences, Siberian Branch

6 Sakhyanovoj Str., Ulan-Ude 670047, Russia

Corpus linguistics has become a full-fledged scientific discipline, and now continues developing based on the Mongolian languages, forming itself as the Mongolian corpus linguistics. History of compiling of corpora of the Mongolian languages in the modern sense covers about two decades. Formation of the corpus linguistics as a discipline can be divided into two main stages: the first one is the period of plain compiling linguistic corpus, the second is the period of development of linguistics in the new scientific paradigm, which is due to data usage of already existing corpora. In Mongolian linguistics today we can see the first of these steps related with the formation of the Mongolian corpus resources: Mongolian corpus, Kalmyk corpus, National Corpus of the Kalmyk language and Buryat corpus. In addition to its scientific and educational significance, corpus linguistic resources make a significant contribution to solving the problems of long-term preservation of the cultural heritage of the Mongolian peoples in cyberspace. Together with the tasks to further promote the Mongolian corpora such projects develop ways of coordination due to both territorial and state disunity of the Mongolian languages.

Keywords: corpus linguistics, the Mongolian languages, linguistics corpus, tagging.

Корпусная лингвистика (далее — КЛ), начавшая свое развитие на данных английского языка в 60-е гг. ХХ в. (Брауновский корпус, У. Френсис и Г. Кучера, Брауновский университет, США; Survey of English Usage, Рандолф Квирк, Университетский колледж Лондона, Англия) стала к настоящему времени полноправной научной дисциплиной со своими научным аппаратом, терминологией, методами и технологиями в качестве ответвления компьютерной лингвистики, которая, в свою очередь, является частью прикладной лингвистики. К достижениям корпусной лингвистики можно отнести уже ряд

языковых корпусных ресурсов по всем крупным языкам мира, а также языкам и диалектам, носителями которых являются народы, которые условно можно охарактеризовать по их численности как «средние» или «малые», в отличие от крупных. Если несколько лет назад языковые корпуса, доступные в режиме онлайн, исчислялись десятками, то сейчас их численность перевалила уже за сотню единиц [12] и это число с каждым годом продолжает только расти.

КЛ стала развиваться и на данных монгольских языков, оформляя свое направление как монголоязычная корпусная лингвистика. Исто-

рия составления корпусов по монгольским языкам в современном смысле началась не так давно и по времени охватывает около двух десятков лет [11; 17; 18; 15; 14; 4; 1, 5]. Судя по опубликованным трудам указанных авторов, а также из бесед во время личных встреч с некоторыми из них, мы можем сказать, что первые шаги по составлению корпусов по монгольским языкам были начаты монгольскими, китайскими (внутренне-монгольскими), японскими и, соответственно, российскими исследователями. Доступные нам, т. е. опубликованные, работы данных исследователей сгруппированы между собой, что позволяет говорить о китайской, монгольской, японской и российской группах разработчиков. Мы отдаем себе отчет в том, что перечисляем здесь не всех участников корпусных проектов по монгольским языкам. Говоря о китайской группе, по данным Д. Боролзоя и Т. ПYрэвсYрэна, назовем внутренне-монгольских коллег, таких как Чойжинжав, С. Насан Урт, Хуашабу [12]. Постараемся отразить имена исследователей, являющихся, на наш взгляд, в своих группах ведущими.

Практически все начинания названных исследователей стимулированы интенсивным развитием компьютерных технологий на рубеже ХХ и XXI вв. и их главным стремлением — внедрить языковые данные в компьютерные технологии, что является уже закономерным явлением современной лингвистической парадигмы. Несмотря на схожесть основных предпосылок начинаний данных исследователей в составлении компьютерных ресурсов по монгольским языкам, их цели, задачи отличаются между собой, а значит, естественно допустить отличия в результатах работ, полученных названными группами исследователей. Вероятно, к факторам, влияющим на сходства и различия конечных результатов монголоязычных проектов в обсуждаемом нами направлении можно отнести и разные программные платформы, разрабатываемые совершенно независимо друг от друга исследователями Монголии, Японии, Китая (Внутренней Монголии), России. Различаются, например, работы по созданию машинных фондов языка, начинавшиеся во времена, когда еще не было Интернета, например, Машинный фонд русского языка [6], опыт разработки которого успешно использовали создатели Национального корпуса русского языка (далее — НКРЯ). По современному монгольскому языку следует назвать работы в схожем направлении под руководством, например, проф. Т. Тербата [18] в качестве предвестников корпусных ресурсов. Работы

японской группы исследователей в обсуждаемом направлении по своим целям и задачам в преобладающей степени тяготеют к компьютерной лингвистике. То же самое можно сказать и о монгольской группе [17; 16; 15]. Мы же озадачены характеристикой ресурсов, разрабатываемых в направлении КЛ. Ввиду малодоступности для нашего анализа работ китайской группы мы можем предположительно сказать, что, по всей видимости, она развивает монголоязычную как компьютерную лингвистику, так и корпусную.

Дальнейшее описание мы хотели бы провести, исходя из основного подразделения результативности работ названных групп исследователей — доступность / недоступность разрабатываемого корпусного ресурса для заинтересованных интернет-пользователей. Под доступностью мы понимаем соответственно онлайн-представление языковых корпусов в Интернете, чем и определяется их основная научная и практическая значимость. Никто не составляет языковые корпуса объемом в сотни миллионов словоупотреблений лично для себя (исключениями могут быть небольшие учебные корпуса в несколько сот или несколько тысяч слов). Понятно, что возможность использования крупных ресурсов неограниченным множеством пользователей только повышает их значимость.

Как известно, формирование любой научной дисциплины идет поэтапно. Складывание КЛ как научной дисциплины, являющейся частью компьютерной лингвистики, можно условно (поскольку границы не так строги) разделить первоначально на два основных этапа (нельзя исключать, что данные этапы, в свою очередь, могут получить дальнейшее дробление). Первый этап — период непосредственного составления самих языковых корпусов. Второй — это период развития лингвистики в новой научной парадигме, которая обусловлена использованием различных данных языка, извлекаемых из уже созданных корпусов, которые, как правило, позволяют исследователям оперировать масштабными статистическими параметрами языковых фактов, кардинально другими, чем в докорпус-ную эпоху, что позволяет получать наряду с уточнениями ранее полученных знаний совершенно новые результаты. Наличие глубоко разработанных корпусов по крупным языкам мира, соответственно, позволяет успешно выполнять исследования на базе корпусных материалов.

Можно привести примеры крупных языковых корпусов, которые свободно или на условиях регистрации, доступны в режиме онлайн, например, Корпус современного американского

английского (COCA), Британский национальный корпус (British national corpus), НКРЯ, Корпус китайского языка, Корпус языка хинди и другие. В монголистике же в данное время можно наблюдать в основном первый из названных этапов, связанный с формированием монголоязыч-ных корпусных ресурсов, некоторые из них стали доступными в режиме онлайн, хотя по степени разработанности различаются между собой [7; 8; 3; 2], что характерно для большинства подобных ресурсов в силу как объективных, так и субъективных причин. Относительно истории исследований языковых аспектов в монголистике с использованием корпусных данных в настоящий период времени, будет справедливо сказать, что она только начинает открывать свои первые страницы [4; 5]. Здесь следует отметить то, что корпусные лингвистические исследования зачастую полагаются на масштабные объемы фактического материала, позволяющие получать более чем достоверные результаты.

При описании доступных в сети монголоя-зычных корпусов, не исключено, то, что какие-то ресурсы остались за пределами нашего внимания. Если подобное имеет место, то причина будет заключаться в том, что мы не располагаем их адресами ссылок. На настоящем этапе развития монголоязычной КЛ можно дать краткое описание доступных корпусов в сети Интернет по монгольским языкам.

Три монголоязычных корпуса — монгольский, калмыцкий и бурятский — располагаются на одном сервере, который представляет более десятка корпусов, разработанных при поддержке Программы фундаментальных исследований Президиума РАН «Корпусная лингвистика». Данные три монголоязычных корпуса доступны онлайн с сайта http://web-corpora.net/. По начальным страницам с сайтов данных корпусов можно видеть то, что они используют поисковую платформу Восточно-армянского национального корпуса [13]. Ввиду того, что проекты разработки данных корпусов являются долгосрочными, при непосредственном обращении к ним можно заметить то, что коллективы их создателей продолжают постоянно работать над их усовершенствованием, отладкой лингвистического инструментария, редактированием погрешностей.

Монгольский представляет современный язык с кириллической графикой, соответственно функционирующий в Монголии. Создателем данного корпуса является С. А. Крылов (ИВ РАН, Москва, Россия), крупный специалист в области общего и монгольского языкознания, а

также компьютерной и корпусной лингвистики. Объем Монгольского корпуса охватывает 1,2 млн. словоупотреблений. Тексты корпуса представляют разные жанры и типы, отражая основные стили монгольского языка, но, следует сказать, что их разметка, к сожалению, не отражается на сайте. В данном корпусе есть возможности осуществлять поиск по словоформе, лемме, переводу, граммемам и лексическим категориям с выдачей контекстов.

Калмыцкий корпус имеет объем в 800 тыс. словоупотреблений. Корпус составлен А. Э. Ванькаевой при поддержке специалистов по компьютерной и корпусной лингвистике Т. А. Архангельского и М. А. Даниэля (НИУ ВШЭ, Москва, Россия). Во вступительной статье на сайте данного корпуса сказано: «Литературные тексты на калмыцком языке — романы, повести, рассказы, очерки, газетные статьи (вторая половина ХХ — начало ХХ1 в.), включенные в корпус, снабжены морфологической разметкой, позволяющей осуществлять поиск по лексеме, по грамматическим характеристикам, по переводу, а также по сочетаниям словоформ на заданном расстоянии».

Второй корпус по калмыцкому языку имеет название Национальный корпус калмыцкого языка (далее — НККЯ). Он располагается на самостоятельном сервере со своей поисковой системой. Ведущим разработчиком данного корпуса является В. В. Куканова (КИГИ РАН, Элиста, Россия). В НККЯ состав, структура имеют уже углубленный характер. На страницах составных частей и подкорпусов НККЯ имеются разъясняющие статьи. Отсутствие подобных статей, судя по всему, свидетельствует о том, что данная часть находится в процессе разработки.

На наш взгляд, НККЯ в настоящее время можно назвать наиболее разработанным среди других монголоязычных корпусов как в плане лингвистических баз данных (текстотека, грамматические словники, словари переводов и др.), так и в плане лингвистических инструментариев к ним. При этом коллектив разработчиков продолжает активное продвижение своего фундаментального проекта, учитывая специфические предпосылки для составления калмыцкого языкового корпуса. Думается, что ознакомление с видением коллектива разработчиков НККЯ по части формирования его состава, структуры, готовящихся перспективных направлений будет чрезвычайно полезно для продвижения / разработки других корпусных ресурсов по языкам и диалектам монгольских народов в силу схожих путей исторического развития их языков.

Бурятский корпус с объемом в 2,2 млн. словоупотреблений включает в настоящее время тексты всех основных стилей функционирования языка — художественного, общественно-публицистического, учебно-научного, с преобладанием первого. Здесь имеются возможности поиска по словоформе, лемме и избранным текстам с выдачей всех контекстов, грамматических признаков лексических единиц на сегодняшний день к неполному объему корпуса и метаинформации к источникам. Возможность поиска по переводу и параллельный бурятско-русский подкорпус находятся на стадии подготовки. Во вступительной статье дается инструкция по использованию корпуса. Настоящая версия данного корпуса стала большим подспорьем для составителей Толкового словаря бурятского языка, давая возможность в считанные секунды находить примеры к словам, т. е. контексты, исчисляющиеся по объему от сотни до тысячи и более единиц.

Подведем краткие итоги по характеристике данных корпусов. Критерии сходства и различия таковы: наличие / отсутствие вступительных статей, разность / схожесть поисковой платформы, разность возможностей поиска, разность составных частей, наличие / отсутствие подкор-пусов. Подкорпуса (начало их разработок) представлены только в НККЯ.

Помимо своей научной и образовательной значимости, корпусные языковые ресурсы вносят весомый вклад в решение проблем долговременного сохранения культурного наследия монгольских народов в киберпространстве. Вместе с решением задач дальнейшего продвижения монголоязычных корпусных проектов встают задачи выработки путей их координации ввиду как территориальной, так и государственной разобщенности носителей самих монгольских языков. Также перспективным для дальнейшего развития и взаимообогащения языков и диалектов монгольских народов в век высоких технологий представляется планирование и реализация совместных международных разработок в русле монголоязычной КЛ. В данном деле уже положено начало в виде международного проекта (Китай, Монголия, Россия) «Разработка кор-

пуса монгольских языков» (2012-2013) [9; 10], который представляет собой звуковой корпус, включающий записи разговорной речи, выполненные монголистами на протяжении многолетних экспедиционных работ в местах компактного проживания носителей языков и диалектов монгольских народов. Относительно онлайн-доступности / недоступности данного проекта приходится сказать, что он не представлен в Интернете. Предположительно мы позволим себе высказаться по поводу причины онлайн-недоступности результатов данного проекта, хотя не исключены причины, отличающиеся от наших представлений. По нашему мнению, одной из возможных причин является сложность представления в интегрированном виде на единой программной платформе баз данных языков и диалектов, несмотря на их близкую родственность, функционирующих на различающихся графических системах как вертикальная письменность во Внутренней Монголии Китая, кириллица современного монгольского, калмыцкого и бурятского языков. В свою очередь, как известно, кириллические системы данных языков также имеют между собой различия в передаче их специфических букв. Другой немаловажной причиной можно предположить сложность создания единого сайта для представления совместного ресурса, подготовленного международным коллективом.

Таким образом, сейчас в сети в корпусных ресурсах доступны в письменном виде языки монгольских народов с грамматическим описанием конкретной словарной единицы. Живая же монгольская речь, например, современная монгольская, калмыцкая, дагурская или бурятская и т. д. в корпусном ресурсе с соответствующими лингвистическими комментариями в сети (как, например, корпус устной речи Восточно-армянского национального корпуса) еще не получила свое представление, но если учитывать то, что работы в этом направлении ведутся группами исследователей разных стран (пусть даже и независимо друг от друга), можно сказать, что это является уже делом ближайшего будущего.

Литература

1. Бадмаева Л. Д. Бурятский языковой корпус: создание, проблемы // Вестник БНЦ СО РАН. — 2013. — № 2 (10). — С. 118-122.

2. Бурятский корпус [Электронный ресурс]. — URL: http://web-corpora.net/BuryatCorpus/search/?interface_language=ru

3. Калмыцкий корпус [Электронный ресурс]. — URL: http://web-corpora.net/KalmykCorpus/search/?interface_language=ru

4. Крылов С.А. Теоретическая грамматика современного монгольского языка и смежные проблемы общей лингвистики. Ч. 2: Структурно-вероятностная модель монгольского языка (на базе Генерального корпуса современного монгольского языка). — М.: Восточная литература, 2014.

5. Куканова В. В. Словоизменительные типы в калмыцком языке в свете автоматической обработки текстов (на примере имени существительного) // Вестник Калм. ин-та гуманит. исслед. РАН. — 2012. — № 3.

6. Машинный фонд русского языка: идеи и суждения. — М.: Наука,1986.

7. Монгольский корпус [Электронный ресурс]. — URL: http://web-corpora.net/MongolianCorpus/search/? interface language=ru

8. Национальный корпус калмыцкого языка [Электронный ресурс]. — URL: http://kalmcorpora.ru/

9. Разработка корпуса монгольских языков [Электронный ресурс]. — URL: http://www.mongoloved.ru/index.php?option =com content&view=article&id=107:proekt-razrabot:ka-korpusa-mongolskogo-yazyka-mongol-khelnii-materialyn-kh-mr-g-bajguulakh-inzheniering-v-rossii&catid=8:novosti&Itemid=107

10. Сундуева Е. В. Проект «Разработка корпуса монгольского языка» в Бурятии // Вестник БНЦ СО РАН. — 2013. — № 3 (11). С. 189-190.

11. Bayatur Da., Djirumt Bu., Odu üye-yin Mongyul kelen-ü üge-yin dabtamji-yin toil. - Öber Mongyul-un suryan kümüjil-ün keblel-ün küriy-e. Küke qota, 1998. 1482 n.

12. Боролзой Д., ^рэвсурэн Т. Компьютер хэл шинжлэл ба дэлхийн чиг [Электронный ресурс]. — URL: http://borolzoi.blogmn.net/27067/kompiyutyer-hel-shinjlel-ba-tsahim-ugiin-san-(1)-baiguulah-asuudald.html

13. EANC: East Armenian National Corpus [Электронный ресурс]. — URL: http://www.eanc.net/ ru/composition/oral discourse/

14. Khaltar B., Fujii A., Ishikawa T. Extracting loanwords from Mongolian corpora and producing a Japanese-Mongolian bilingual dictionary // Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL, Sydney, July 2006. Sydney, 2006. P. 657-664.

15. Менх-Учрал Э. Монгол хэлний цахим хемрегийн тухайд // Gemeinsam Stark, Verein der mongolischen Akademiker in Baden Württemberg e.V., Universität Stuttgart. Stuttgart, 2010.

16. PAN Localization [Электронный ресурс]. — URL: http://www.panl10n.net/mongolia/

17. Purev J., Altangerel Ch. [Электронный дискурс]. — URL: http://www.panl10n.net/center-for-research-on-language-processing-crlp-national-university-of-mongolia-mongolia/

18. Тербат Т., Эрдэнэбатхаан Т., Монгол хэлний машинан боловсруулалтын тулгамдсан асуудал, туунийг шийдэх арга замын тухайд, Хумуунлэгийн ухааны их сургуулийн эрдэм шинжилгээний бичиг, Боть 1 (06), УБ 2004.

References

1. Badmaeva L. D. Buriatskij yazykovoj korpus: sozdanie, problemy i perspektivy [Buryat language corpus: creation, problems, prospects]. VestnikBuryat. nauch. centra SO RAN—Bulletin of SB RAS BSC. 2013. No. 2 (10). Pp. 118-122.

2. Buriatskij korpus. Available at: http://web-corpora.net/BuryatCorpus/search/?interface _ language=ru

3. Kalmytskij korpus. Available at: http://web-corpora.net/KalmykCorpus/search/7interface_ language=ru

4. Krylov S. A. Teoreticheskaya grammatika sovremennogo mongol'skogoyazyka i smezhnye problemy obshchej lingvistiki. Ch. 2: Strukturno-veryiatnostnaya model' mongol'skogo yazyka (na baze General'nogo korpusa sovremennogo mongol'skogo yazyka) [Theoretical grammar of contemporary Mongolian language and related problems of general linguistics. Part 2: Structure-probabilistic model of the Mongolian language (based on the body of the modern Mongolian language)]. Moscow: Vostochnaya literatura, 2014.

5. Kukanova V.V. Slovoizmenitel'nye tipy v kalmytskom iazyke v svete avtomaticheskoj obrabotki tekstov (na primere imeni sushchestvitel'nogo) [Word modifying types in Kalmyk language in the light of automatic text processing (on the material of a noun)]. Vestnik Kalmytskogo instituta gumanitarnykh issledovanij RAN — Bulletin Kalmyk Institute for Humanities Research RAS. 2012. No. 3.

6. Mashinnyj fond russkogo iazyka: idei i suzhdeniia [Machine fund of Russian language: ideas and judgments]. Moscow: Nauka, 1986.

7. Mongol'skij korpus. Available at: http://web-corpora.net/MongolianCorpus/ search/?interface_language=ru

8. Natsional'nyi korpus kalmytskogo iazyka. Available at: http://kalmcorpora.ru/

9. Razrabotka korpusa mongol'skikh iazykov. Available at: http://www.mongoloved.ru/index.php?option =com_content&view=article&id=107:proekt-razrabotka-korpusa-mongolskogo-yazyka-mongol-khelnij-materialyn-kh-mr-g-bajguulakh-inzheniering-v-rossii&catid=8:novosti&Itemid=107

10. Sundueva E. V. Proekt "Razrabotka korpusa mongol'skogo iazyka" v Buryatii [The project "Development of Mongolian language corpus" in Buryatia]. Vestnik Buryat nauch. centra SO RAN — Bulletin of SB RAS BSC. 2013. No. 3 (11). Pp. 189-190.

11. Bayatur Da., Djirumt Bu. Odu üye-yin Mongyul kelen-ü üge-yin dabtamji-yin toil. Öber Mongyul-un suryan kümüjil-ün keblel-ün küriy-e. Küke qota, 1998. 1482 n.

12. Borolzoi D., PYrevsYren T. Komp'iuter khel shinzhlel ba delkhiin chig. Available at: http://borolzoi.blogmn.net/ 27067/kompiyutyer-hel-shinjlel-ba-tsahim-ugiin-san-(1)-baiguulah-asuudald.html

13. EANC: East Armenian National Corpus. Available at: http://www.eanc.net/ru/composition/oral_discourse/

14. Khaltar B., Fujii A., Ishikawa T. Extracting loanwords from Mongolian corpora and producing a Japanese-Mongolian bilingual dictionary // Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL, Sydney, July 2006. Sydney, 2006. P. 657-664.

15. Menkh-Uchral E. Mongol khelnii tsakhim khemregiin tukhaid // Gemeinsam Stark, Verein der mongolischen Akademiker in Baden Württemberg e.V., Universität Stuttgart. Stuttgart, 2010.

16. PAN Localization. Available at: http://www.panl10n.net/mongolia/

17. Purev J., Altangerel Ch. Available at: http://www.panl10n.net/center-for-research-on-language-processing-crlp-national-university-of-mongolia-mongolia/

18. Terbat T., Erdenebatkhaan T. Mongol khelnii mashinan bolovsruulaltyn tulgamdsan asuudal, tyYniig shiidekh arga zamyn tukhaid, Khymy^nlegiin ukhaany ikh surguuliin erdem shinzhilgeenii bichig, Bot' 1 (06). Ulan-Bator, 2004. (Mong.)

i Надоели баннеры? Вы всегда можете отключить рекламу.