Научная статья на тему 'Корпусы башкирского языка: принципы разработки'

Корпусы башкирского языка: принципы разработки Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
415
70
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОРПУСНАЯ ЛИНГВИСТИКА / БАЗЫ ЛИНГВИСТИЧЕСКИХ ДАННЫХ / БАШКИРСКИЙ ЯЗЫК / ИНФОРМАЦИОННЫЕ СИСТЕМЫ / ПРИКЛАДНАЯ ЛИНГВИСТИКА / CORPUS LINGUISTICS / LINGUISTIC DATABASE / THE BASHKIR LANGUAGE / INFORMATION SYSTEMS / APPLIED LINGUISTICS

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Сиразитдинов Зиннур Амирович, Полянин Анатолий Ильич, Ибрагимова Альфия Дамировна, Ишмухаметова Анита Шаукатовна

В статье рассматриваются состояние корпусной лингвистики в зарубежной и отечественной науке и вопросы разработки корпусов башкирского языка лабораторией лингвистики и информационных технологий Института истории, языка и литературы УНЦ РАН. Авторами предлагается разработанная на базе СУБД Оракл интегрированная система, позволяющая создавать корпусы, осуществлять широкий круг поисковых задач: по словоформе, лемме, семантике, грамматическим категориям, сочетаниям лингвистических единиц и т.д. Отличительной особенностью интегрированной системы является наличие службы сопровождения и администрирования корпуса, позволяющей осуществлять редактирование (основного словаря, списков словоизменительных категорий, моделей словоизменения и самих текстов), ручное снятие грамматических и лексических неоднозначностей, экспортировать размеченные тексты из базы данных Оракл в формате xml для обмена данными и других национальных корпусных проектов. Излагаются основные принципы работы морфоанализатора, осуществляющего анализ башкирской словоформы и производящего морфологическую разметку текстов. Предложенные авторами грамматические фильтры являются уникальными и основываются на моделировании башкирской словоформы в виде многомерного объекта (псевдотензора). Принципы представления лингвистической информации в созданных авторами словарях использованы при создании корпусов прозаических и газетных текстов. В статье освещены состояние и перспективы работ над указанными корпусами башкирского языка.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Сиразитдинов Зиннур Амирович, Полянин Анатолий Ильич, Ибрагимова Альфия Дамировна, Ишмухаметова Анита Шаукатовна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE CORPUSES OF THE BASHKIR LANGUAGE: DESIGN PRINCIPLES

The article discusses the state of corpus linguistics in foreign and national science as well as issues of constructing corpora of Bashkir by the Laboratory of Linguistics and Information Technology, the Institute of History, Language and Literature, the RAS Ufa Science Centre. The authors have developed the integrated Oracle database system, allowing you to create corpora, to perform searches on word form, lemmas, semantics, grammatical categories, combination of linguistic units, etc. A distinctive feature of the integrated system is the availability of maintenance department and corpus administration service that makes possible to edit the basic vocabulary, a list of inflectional categories, inflection and text models, to do a manual removal of grammatical and lexical ambiguities, or to export tagged texts formatted in xml located in the Oracle database to exchange with data stored in other national corpus projects. The authors also describe parser operating principles, a program that executes the Bashkir word form analysis and morphological text markup. Filters elaborated by the authors are based on modeling a Bashkir word form as a multidimensional object (pseudotensor). The principles of linguistic information representation proposed in dictionaries by the authors are used in creating corpuses of prosaic and newspaper texts. The authors describe the state and prospects for the development of the above mentioned corpuses of the Bashkir language as well.

Текст научной работы на тему «Корпусы башкирского языка: принципы разработки»

НАУКА СЕГОДНЯ

i-'V- ¿"tu. ..'ti. »"V. ."J«, ¿»t«. f'îi. i'V- .4«. ¿sj«. ^ ¿sj^ «44 ¿sj?. «'V. ^J?.

З.А.Сиразитдинов, А.И. Полянин, А.Д.Ибрагимова, А.Ш.Ишмухаметова УДК 004.658:801.3=512.14

КОРПУСЫ БАШКИРСКОГО ЯЗЫКА: ПРИНЦИПЫ РАЗРАБОТКИ*

В статье рассматриваются состояние корпусной лингвистики в зарубежной и отечественной науке и вопросы разработки корпусов башкирского языка лабораторией лингвистики и информационных технологий Института истории, языка и литературы УНЦ РАН. Авторами предлагается разработанная на базе СУБД Оракл интегрированная система, позволяющая создавать корпусы, осуществлять широкий круг поисковых задач: по словоформе, лемме, семантике, грамматическим категориям, сочетаниям лингвистических единиц и т.д. Отличительной особенностью интегрированной системы является наличие службы сопровождения и администрирования корпуса, позволяющей осуществлять редактирование (основного словаря, списков словоизменительных категорий, моделей словоизменения и самих текстов), ручное снятие грамматических и лексических неоднозначностей, экспортировать размеченные тексты из базы данных Оракл в формате хт1 для обмена данными и других национальных корпусных проектов. Излагаются основные принципы работы морфоанализатора, осуществляющего анализ башкирской словоформы и производящего морфологическую разметку текстов. Предложенные авторами грамматические фильтры являются уникальными и основываются на моделировании башкирской словоформы в виде многомерного объекта (псевдотензора). Принципы представления лингвистической информации в созданных авторами словарях использованы при создании корпусов прозаических и газетных текстов. В статье освещены состояние и перспективы работ над указанными корпусами башкирского языка.

Ключевые слова: корпусная лингвистика, базы лингвистических данных, башкирский язык, информационные системы, прикладная лингвистика

* Статья подготовлена при поддержке Программы фундаментальных исследований Президиума РАН "Корпусная лингвистика. Направление 3. Создание и развитие корпусных ресурсов по языкам народов России. Создание корпуса текстов республиканских газет на башкирском языке"

Сиразитдинов Зиннур Амирович, кандидат филологических наук, старший научный сотрудник, заведующий лабораторией лингвистики и информационных технологий Института истории, языка и литературы Уфимского научного центра РАН, e-mail: sazin11@mail.ru

Полянин Анатолий Ильич, инженер-программист лаборатории лингвистики и информационных технологий Института истории, языка и литературы Уфимского научного центра РАН, e-mail: polyanin-ai@mail.ru

Ибрагимова Альфия Дамировна, младший научный сотрудник лаборатории лингвистики и информационных технологий Института истории, языка и литературы Уфимского научного центра РАН, e-mail: alfiya25051981@mail.ru

Ишмухаметова Анита Шаукатовна, научный сотрудник лаборатории лингвистики и информационных технологий Института истории, языка и литературы Уфимского научного центра РАН, e-mail: ani0605@mail.ru

Zinnur A. Sirazitdinov, Cand.Sc. (Philology), Senior Research Fellow, Chief of the Laboratory of Linguistics and Information Technology at the Institute of the History, Language and Literature, Ufa Science Center, the Russian Academy of Sciences (Ufa, Russia), e-mail: sazin11@mail.ru

Anatoliy I. Polyanin, Software Engineer of the Laboratory of Linguistics and Information Technology at the Institute of History, Language and Literature, Ufa Science Center, the Russian Academy of Sciences (Ufa, Russia), e-mail: polyanin-ai@mail.ru

Alfiya D. Ibragimova, Junior Research Fellow of the Laboratory of Linguistics and Information Technology at the Institute of History, Language and Literature, Ufa Science Center, the Russian Academy of Sciences (Ufa, Russia), e-mail: alfiya25051981@mail.ru

Anita Sh. Ishmukhametova, Research Fellow of the Laboratory of Linguistics and Information Technology at the Institute of History, Language and Literature, Ufa Science Center, the Russian Academy of Sciences (Ufa, Russia), e-mail: ani0605@mail.ru

© Сиразитдинов З.А., Полянин А.И., Ибрагимова А.Д., Ишмухаметова А.Ш., 2013

Zinnur A. Sirazitdinov, Anatoliy I. Polyanin, Alfiya D. Ibragimova, Anita Sh. Ishmukhametova

THE CORPUSES OF THE BASHKIR LANGUAGE: DESIGN PRINCIPLES

The article discusses the state of corpus linguistics in foreign and national science as well as issues of constructing corpora of Bashkir by the Laboratory of Linguistics and Information Technology, the Institute of History, Language and Literature, the RAS Ufa Science Centre. The authors have developed the integrated Oracle database system, allowing you to create corpora, to perform searches on word form, lemmas, semantics, grammatical categories, combination of linguistic units, etc. A distinctive feature of the integrated system is the availability of maintenance department and corpus administration service that makes possible to edit the basic vocabulary, a list of inflectional categories, inflection and text models, to do a manual removal of grammatical and lexical ambiguities, or to export tagged texts formatted in xml located in the Oracle database to exchange with data stored in other national corpus projects. The authors also describe parser operating principles, a program that executes the Bashkir word form analysis and morphological text markup. Filters elaborated by the authors are based on modeling a Bashkir word form as a multidimensional object (pseudotensor). The principles of linguistic information representation proposed in dictionaries by the authors are used in creating corpuses of prosaic and newspaper texts. The authors describe the state and prospects for the development of the above mentioned corpuses of the Bashkir language as well.

Keywords: corpus linguistics, linguistic database, the Bashkir language, information systems, applied linguistics

Корпусная лингвистика1 как новое направление филологии занимается созданием общих унифицированных принципов представления сверхбольших массивов языковых данных - корпусов, непосредственным их составлением, а также выполнением конкретных экспериментальных лингвистических исследований на базе этих данных [1, с. 3].

На сегодня в мире насчитываются более тысячи корпусов. Такой интерес к ним обусловлен тем, что корпусная лингвистика активно влияет на все остальные направления языкознания, изменяя теоретические приоритеты и создавая новые идеологии в понимании того, что же представляет собой язык [2, с. 7-8], открывает перспективу для новых исследований и в смежных областях: в литературоведении (для стилеметри-ческих исследований, определения нормативности употребления языковых реалий), общественных науках (изучение социальных объектов через язык, используя такие параметры текстов, как период, автор или жанр, семантический контент текстов), информационно-технических разработках (создание автоматизированных систем машинного перевода, распознавание речи, информационный поиск).

Поскольку объектом самой корпусной лингвистики является многообразие речевых и письменных материалов языка, то и вся совокупность имеющихся корпусов весьма различна [1-9].

Сейчас все крупные языки обзавелись свои-

ми национальными корпусами [10-18]. Ведутся корпусные разработки и по языкам народов России [19-22]. Отдельно отметим научные разработки и корпусные проекты по языкам тюркской группы [23-30].

В Институте истории, языка и литературы (ИИЯЛ) УНЦ РАН разработки корпусов башкирского языка ведутся лабораторией лингвистики и информационных технологий в двух на-правлених: а) корпус прозаических текстов; б) корпус публицистических текстов. В русле этих направлений разработана интегрированная система, позволяющая создавать корпусы, осуществлять широкий круг поисковых задач и обслуживать корпусы (администрирование и сопровождение баз данных). Сегодня многие корпусы испытывают трудности из-за отсутствия единой интегрированной системы: блок администрирования и поисковая система разделены во временном и пространственном срезе. Наша разработка, осуществленная на базе СУБД Оракл, лишена вышеназванных недостатков, является уникальной и, по сути, представляет второе направление в отечественной корпусной технологии (после программных разработок компании Яндекс для корпуса русского языка).

Интегрированная система состоит из двух блоков: пользовательский и администраторский (рис. 1).

I. Пользовательский блок включает программные средства:

1 Корпусная лингвистика зародилась во второй половине ХХ в. как направление в зарубежном языкознании, связанное с компьютерной обработкой текстов (речевые материалы, как письменные, так и устные) больших объемов.

- определения объема корпуса, выделения пользовательского подкорпуса;

- поисковые, позволяющие производить гибкий поиск [словоформы, леммы, по семантике, грамматических категорий словоизменений, грамматических подкатегорий, сочетаний грамматических категорий и подкатегорий, сочетаний словоформ и лемм, выдача списка небашкирской лексики (вкраплений по языкам источникам)];

- квантитативно-статистического анализа текстов корпуса (разработаны функции построения частотных словарей словоформ и лексем, находятся на стадии разработки подсистемы выдачи статистических распределений и их графических представлений по любому подкорпусу, составленному пользователем).

II. Блок администратора (с правами входа для сотрудников лаборатории) включает программные средства:

- ввода и автоматической разметки текстов (производят морфологические и семантические разметки новых введенных текстов);

Графический интерфейс

2 3

Блок пользователя

1 2

5 6

Блок администратора

Текстовая база данных

Рис. 1. Структура ингегрированной системы построения корпусов

- редактирования (предусмотрены возможности редактирования основного словаря, списков словоизменительных категорий, моделей словоизменения и правка самих текстов);

- ручного снятия грамматических и лексических неоднозначностей (сотрудники лаборатории могут просматривать текст по предложениям и устранять омонимичные явления, которые не разрешаются самой системой);

- принятия решений по небашкирским словам (часть словоформ данной группы составляют опечатки, авторские неологизмы, диалектные слова и вкрапления из других языков; позволяют исправлять опечатки, добавлять новые основы или размечать словоформы как вкрапления; языки-источники иноязычной лексики могут добавляться или удаляться из соответствующего списка);

- статистического учета посещаемости корпуса прозаических текстов;

- экспорта любого размеченного текста из базы данных Оракл в формате xml для обмена данными и других национальных корпусных проектов.

Система морфологической разметки башкирских корпусов ориентирована на представление всех регулярных словоизменительных грамматических форм, не всегда отражаемых и не всегда совпадающих с формами, принятыми в академической грамматике2.

Морфологическая информация башкирской словоформы в корпусе включает: а) частереч-ную характеристику; б) совокупность морфологических признаков по типу агглютинативных аффиксов словоизменения, которые подразделяются на именные и глагольные формы.

Выделяются 12 частей речи: имена существительные, числительные, прилагательные, наречия, глаголы, местоимения, подражательные слова, междометия, модальные слова, союзы, частицы, послелоги. Эти характеристики указываются в словаре основ.

Именные морфологические признаки включают показатели 15 категорий: числа (единственное число Sg "singular" и множественное число Pl "plural"); падежа (основной падеж Nom "nominative", родительный Gen "genitive", дательный Dat "dative", винительный Acc "accusative", исходный Abl "ablative", местный падеж Loc "locative"); принадлежности (Poss 'possessive': -м/-ц/^ы/-бы§/-гъ1§У; сказуемости (Pred 'predicativity': -мът/-Ы1ц/-бъ1§/^ъ1гъ1§); во-просительности (Q 'question': -мъ/-ме); неопределенности (Indf indefinite': -дър/-дер); усиления (Int ' intensifying' : -съ/-се); притяжательности (PssAtr' attributive possesive': -дшкш/-деке); умень-шительно-ласкательности (Dimin 'diminutive': -кай/-кэй); уподобления (Comp 'comparison', comp1: -дай/-дэй; comp2: -са/-сэ); атрибутивный локатив (LocAtr' attributive locative' : -тагъ1/-тэге); обладательности (CmtAtr' attributive comitate':

1

3

4

2 Авторы выражают благодарность член-корреспонденту РАН А.В. Дыбо за ценные советы в разработке системы морфологических разметок башкирского языка.

-лы/-ле); лишительности (Abs 'abessive' : -hbi§/-he§); предельности (Term 'terminative': -гаса/-гэсэ); сравнительной степени (DgCom 'degrees of comparison' аффиксом -рак/-рж).

Глагольные морфологические признаки включают показатели 11 категорий: вопроситель-ности (Q 'question': -ме/-ме ); неопределенности (Indf 'indefinite': -дыр/-дер ); усиления (Int 'intensifying': -сы/-се); отрицания (Neg'negative': -ма/-мз); наклонения (Ind ' indicative ' изъявительное, Cond conditional' условное, Opt optative' желательное, Imp 'imperative' повелительное, Intnl intentional' намерение); деепричастия (Ger 'gerund': Ger1: -еп/-ып; Ger2: -гас/-гэс; Ger3: -ганса/-гэнсэ; Ger4: -гансы/-гэнсе); причастия (Ptcp 'participle': Prs: -ыусы/^се; Pst: -ган/-гэн, Fut1: -асак/-эсж; Fut2: -ыр/-ер); имени действия (Act: -biy/-eY); инфинитива (Inf 'infinitive': -рга/-ргэ); хабитуалиса (Hab 'habitualis': -сан/-сэн); образования абстрактных субстанти-вов (Abst 'abstractness ': -лык/-лек).

В корпусе указываются и подкатегории, например, для глагольных форм: времени (Prs present' настоящее время, Fut future' будущее время: FutIndf Future indefinite tense' будущее неопределенное время, FutDef Future definite tense' будущее определенное время, Pst прошедшее время; PstIndf Past indefinite tense' прошедшее неопределенное время, PstDef 'Past definite tense' прошедшее определенное время, PqрfDef Plusquamperfect definite tense' предпрошедшее определенное время -гайным/ - гэйнем); лица (р: 1-3); числа (sg, pl);

Морфологический анализатор корпуса осуществляет анализ текстовой словоформы (выделение основы, морфологических категорий) и разметку текста. Автоматическое выделение основы осуществляется на базе алгоритма последовательного вычленения из словоформы букв и сравнения остатка словоформы и вычлененного фрагмента со словарями основ и аффиксов башкирского языка. Для некоторых языков предлагаются анализаторы на базе словаря, представляющего список всевозможных словоформ данного языка с указанием основ и грамматических признаков. По нашему мнению, для агглютинативных языков со стройной морфологической системой такой подход является затратным, требующим больших ресурсов системы и большой ручной работы по выделению основ и расписыванию грамматических категорий словоформ.

Для правильной идентификации основы и аффиксов в морфоанализаторе используются грамматические фильтры:

1. Фильтр соответствия фонетической структуры аффикса фонетической структуре основы. Например, словоформа башла начинай . Алгоритм выделяет основу баш и аффикс -ла. В таблице окончаний имеется аффикс -ла место-временного падежа. Но фонетическая структура слова баш требует присоединения аффикса -та. Соответственно разбиение баш + ла отбрасывается и продолжается поиск следующего варианта. Далее в словаре основ анализатор находит глагольную основу башла, которая в конечном итоге и выбирается. Для работы этого фильтра любая башкирская основа представляется в виде элемента псевдотензора - >я основа.

р, 1 - определяют фонетическое строение слова, принимают значения 1,2,3,4; р=1, если слово мягкое, когда последними гласными в слове являются э, е, и, Y (бе§, кеше); р=2, если слово твердое, когда последними гласными в слове являются а, у, ы, я, э (ба§ар, кала);р=3, если слово мягкое и последняя гласная в (например, бврквт, твлкв); р=4, если слово твердое и последняя гласная о ( например, болот, hоло); 1=1, если конечный звук а, э, е, э, ы, в, о, я; 1=2, если конечный звук л, м, н, ц, ж, з; 1=3, если конечный звук и, ю, у, 5, р, й, Y; 1=4, если конечный звук б, в, г, д, п, ч, т, к, к, ф, с, ^ ш, х, ц, щ.

Все аффиксы словоизменения проиндексированы соответственно (р, 1) той основы или словоформы, к которым они могут присоединяться (табл. 1).

Т а б л и ц а 1

Представление аффиксов множественного числа

11b11= - лэр 21b11= - лар 31b11= - лэр 41b11= - лар

12b11= - дэр 22b11= - дар 32b11= - дэр 42b11= - дар

13b11= - зэр 23b11= - зар 33b11= - зэр 43b11= - зар

14b11= - тэр 24b11= - тар 34b11= - тэр 44b11= - тар

2. Фильтр соответствия сочетаний аффиксов нормативным правилам основывается на списках возможных моделей сочетания словоизменительных аффиксов башкирского языка [31].

Рассмотрим работу фильтра на примере словоформы аттыр^ы 'заставил выстрелить'. Возможно разбиение данной словоформы на фрагменты ат ("лощадь") + тыр (афф. неопределенности^ ^ы (афф. винительного падежа). Аффиксы соответствуют фонетической структуре башкирского слова (закону сингармонизма), но нет соответствия порядку сочетания аффик-

сов языка. Аффикс неопределенности не может стоять раньше падежного аффикса.

Для работы этого фильтра нами составлены структурные модели реализуемых в языке типов словоформ в виде элементов псевдотензора 1к11

^к^пта^^р^ ®Р^ к1® Р^^®

1m1n1v1u1x1v1z1 1 [ к 1

Р^ т1 ®р^ п1® ptb v) ®р^ и1®р^ х1® Р^У1® т п V и х у

Рtb z)

z

Т а б л и ц а 3

Фрагмент словаря основ

1к1 1 1 2

Так, элемент определяет словоизменения, образованные аффиксами множественного числа и падежной системой, а ^А^Ц®1^1®1^1 - все словоизменения с аффиксами множественного числа и родительного падежа.

Для именных типов словоизменений нами были определены 611 структурных моделей, для глагольных - 667.

3. Фильтр графической передачи на стыках фонем.

Графическая передача на стыках фонем й и а в виде графемы я, переход конечных п, к, к в б, г, F и выпадение согласной фонемы аффикса дательного падежа при присоединении после аффиксов принадлежности в 1-м и во 2-м лице единственного числа и некоторые другие проверяются в фильтре исключений. Данный фильтр имеет сложную организацию и не единообразную базу исходных данных. Так, для некоторых разделов фильтра данные представляются в виде индексов в таблице основ. Таблица 2 иллюстрирует представление топонимических данных.

Т а б л и ц а 2

Фрагмент словаря географических названий

Г Бородино 1

Г Бохара

Г Бегелмэ

Г Бере

Г Брянск 1 Брянски

Г БYрэт

Г Волхов 1

Г Волынь 2 Волын

И Анонс 1

И Ансамбль 2 ансамбл

И Ант

И антагонизм 1

И антагонист 1 антагонис

И антибиотик 1 3

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

С бэрэбэр

С бэрэкэтле 4

С тэмэле 4

С тэмhез 4

В словаре основ указаны части речи, типы нарушений сингармонизма и возможные остатки основ при словоизменительных процессах и прочие варианты.

В таблице 3 представлен фрагмент словаря основ.

Предложенные принципы реализованы для проекта корпуса прозаических текстов башкирского языка. На момент подготовки данной статьи автоматически размечены тексты 979 произведений более 80 авторов общим объемом порядка 12 323 078 словоформ, запущен проект поисковой системы в сети [ЬНр://т1Ъ1. ru/bashkorp/korpusp]. Сейчас идет отладка и оптимизация работы корпуса, ведется работа по оцифровке новых текстов. К концу года намечается доведение объема корпуса до 20 млн словоформ и запуск самого корпуса в Интернете на сервере Института со своим доменным именем. Представляем иллюстрацию выдачи результата поиска по корпусу ( рис. 2).

По корпусу газетных текстов подготовлены тексты республиканских газет и журналов общим объемом в 5 млн словоформ. Система экстралингвистических разметок публицистического корпуса включает название прессы, год, месяц и день выхода, название статьи, автора. Все тексты размечены по тематике и жанру. Для рассматриваемого корпуса выделены следующие тематики и жанры.

Тематика: политическая и социальная жизнь (политика, право, философия); экономика (производство, строительство, бизнес, финансы, коммерция); сельское хозяйство; искусство, культура и литература; наука и техника; образование; природа, путешествие; частная жизнь; спорт; религия; психология; медицина; красота и здоровье.

Жанры текстов: интервью, беседа; статья, очерк, репортаж, обозрение; советы; письма; обзор печати (новости из других источников); поздравления; художественно-публицистические жанры (эссе, фельетон, рассказ, стихи, эпиграммы); рецензия.

^ [2] Корпус башкирского язык X ^ Ц Корпусная лингвистика - У X ^ Ц Машинный фонд башкире Г

С 0 тМги/Ьа5Икогр/когризу4'?р_и5ег=136

aí? =

Корпус башкирского языка Меню *

Результаты поиска Новый поиск

1 2 1 3 1 4 1 5 1 6 I ч «14 10 1 11 1

Найдено: Предложений - 3763 Словоформ - 3899

Автор, произведение (абзац/ предложение) +-20 Предложение

Абдуллин А, Онотма мине, кояш!, 1976, повесть (54/104) — Тоняньщ китабы/китап/поип/ы/РсщМёРЗ/, уньщ эсенэн фото ергэ шыуып теште

+-20 1

(57/107) +-20 1 — Юте, — тине ул, фотоны китап/китап/пош/ эсенэ Иальш.

(444/84Z) +-20 I Минец бар белганемкитапка/китап/поц^ка/БаУ тына ниге^лэнгэн.

(1471/2988) +-20 I — Гэжэйеп китап/китап/пош/

(1488/3 020) +-20 I Сергей, шкафтан бер нисэ китап/китап/поип/ алып, ду<;-иштэренэ "Карай боролдо:

(1491/3026) +-20 I — Сергей китаптарга/кита]Моип/тар+гаУР1+ВаУ ымлап курЬэтте: — Былар Ьедгэ минэн и(;тэлек.

(1492/3027) +-20 I Полухин е?тэге китапгыц/китап/поип/ты^геп/ тышын асты:

(1493/3029) +-20 I Академик Ивановтьщ китабь^китап/поип/ы/Розз 1 Sg РЗ/.

(1496/3032) +-20 I — Шуга ул минец елешкэ тейэ лэ инде, — тип Садрый китапты/китап/поип/ты/^Щ/ тартып алды ла "Куйынына йэшерде.

статья для Рос...

«ьр Корпус башкир... 0 Microsoft Power...

Рис. 2. Вид интерфейса проекта корпуса прозаических текстов. Выдача результатов поиска по слову «китап»

Корпус будет выставлен к концу года.

Сегодня проект корпуса прозаических текстов активно используется сотрудниками отдела языкознания при составлении многотомного академического толкового словаря башкирского языка.

ЛИТЕРАТУРА

1. Захаров В.П. Корпусная лингвистика: учеб.-метод. пособие. - СПб., 2005. - 48 с.

2. Плунгян В.А. Корпус как инструмент и как идеология: о некоторых уроках современной корпусной лингвистики // Русский язык в научном освещении. - 2008. - № 16 (2). - С. 7-20.

3. LDC Top Ten Corpora (мультимедийные корпусы английского языка). - Режим доступа: http://www.ldc.upenn.edu/Catalog/topten.jsp (дата обращения: 17.06.2013).

4. Chinese Broadcast Conversation Speech (мультимедийный корпус китайского языка). - Режим доступа: http://www.ldc.upenn.edu/Catalog/CatalogEntry. jsp?catalogId= LDC2013S04 (дата обращения: 17.06.2013).

5. The Corpus of Spontaneous Japanese (мультимедийный корпус японского языка). - Режим доступа: http://www.ninjal.ac. jp/products-k/katsudo/seika/ corpus/public/index.html (дата обращения 17.06.2013).

6. The Spoken Turkish Corpus (мультемидийный корпус разговорного турецкого языка). - Режим доступа: http://stc.org.tr (дата обращения: 17.06.2013).

7. Фонетический корпус спонтанной эстонской речи. - Режим доступа: http://www.murre.ut.ee/ phonetic-corpus (дата обращения: 17.06.2013).

8. Фонетический корпус немецкого разговорного языка. - Режим доступа: http://dsav-wiss.ids-mannheim. de/korpora/pf/pf _doku.htm (дата обращения: 17.06.2013).

9. Фонетические корпусы русского и польского язьжов. - Режим доступа: http://www.voicemethods. com/new/databases/corpuses.php3 (дата обращения: 17.06.2013).

10. Das Deutsche Referenzkorpus (DeReKo). -Режим доступа: http://www.ids-mannheim.de/kl/ projekte/korpora (дата обращения: 17.06.2013).

11. British National Corpus - Режим доступа: http:// www.natcorp.ox.ac.uk (дата обращения: 17.06.2013).

12. The corpus of Contemporary American English (COCA). - Режим доступа: http://corpus.byu.edu/coca (дата обращения: 17.06.2013).

13. Корпус китайского языка. (LIVAC Synchronous Corpus). - Режим доступа: http://www.rcl. cityu.edu.hk/livac (дата обращения: 17.06.2013).

14. Magyar Nemzeti Szövegtär (корпус венгерского языка). - Режим доступа: http://corpus.nytud.hu/mnsz (дата обращения: 17.06.2013).

15. Corpus del español (корпус испанского языка). - Режим доступа: http://www.corpusdelespanol. org (дата обращения: 17.06.2013).

16. Corpus di riferimento della lingua italiana scritta contemporánea ("CoLFIS") (корпус итальянского языка). - Режим доступа: http://www.ge.ilc.cnr.it/ dizionari.php (дата обращения: 17.06.2013).

17. Cesky národní korpus (CNK) (чешский национальный корпус). - Режим доступа: http://ucnk. ff.cuni.cz (дата обращения: 17.06.2013).

18. Национальный корпус русского языка. - Режим доступа: http://www.ruscorpora.ru (дата обращения: 17.06.2013).

19. Бадмаева Л.Д., Бадагаров Ж.Б., Цыдыпов Б.З. Общие проблемы формирования корпуса бурятского языка // Труды международной конференции «Корпусная лингвистика - 2008», 6-10 октября 2008 г., Санкт-Петербург. - Санкт-Петербург, 2008. - С. 24-30.

20. Куканова В.В. Архитектура метаописания в Национальном корпусе калмыцкого языка // Вестник Калмыцкого института гуманитарных исследований РАН. - 2011. - № 1. - С. 139-145.

21. Корпус лезгинского языка. - Режим доступа: http://www.dag-languages.org/LezgianCorpus/search/ (дата обращения: 17.06.2013).

22. Корпус осетинского языка. - Режим доступа: http://www.ossetic-studies.org/iron-corpus/search/ index.php?interface_language=ru. (дата обращения: 17.06.2013).

23. Жубанов А.Ц. К|азак; тшнщ аннотацияланган мэтшдер корпусындагы етесл сездерге лексик-морфологияльщ белп-код (белгшешм) коюдьщ алгышарттары // "Тштаным". - 2012. - № 1. - 18-25 б. (журнал Института языкознания им. А. Байтурсынова, Казахстан, Алматы).

24. Сулейманов Д.Ш., Хакимов Б.Э., Гильмул-лин Р.А. Корпус татарского языка: концептуальные и лингвистические аспекты // Вестник Татарского государственного гуманитарно-педагогического университета. - 2011. - № 4 (26). - С. 211-216.

25. Салчак А.Я. Электронный корпус текстов тувинского языка // Новые исследования Тувы. - 2012.

- № 3 (электронный журнал). - Режим доступа: http:// www.new-tuva.info/journal/issue_15/5231-salchak.html (дата обращения: 17.06.2013).

26. Sözlü Türkge Derlemi ^корпус разговорного турецкого языка). - Режим доступа: http://std.metu. edu.tr (дата обращения: 17.06.2013).

27. Электронный корпус шорских текстов.

- Режим доступа: http://shoriya.ngpi.rdtc.ru (дата обращения: 17.06.2013).

28. Шеймович А.В. Морфологическая разметка корпуса хакасского языка // Российская тюркология.

- 2011. - № 2 (5). - С. 48-61.

29. Гаджиахмедов Н.Э. На пути создания диалектного корпуса кумыкского языка // Актуальные проблемы диалектологии языков народов России: материалы XIII Международной конференции. - Уфа, 2013. - С. 177-179.

30. Садыков Т., Шаршембаев Б. "Манас" эпосунун улттук корпусун тузуу женунде // Компьютерная обработка тюркских языков. Первая

Международная конференция: труды. - Астана: ЕНУ им. Л.Н.Гумилева, 2013. - С. 148-154.

31. Сиразитдинов З.А. Моделирование грамматики башкирского языка. Словоизменительная система. - Уфа: Гилем, 2006. - 160 с.

REFERENCES

1. Zakharov VP. Korpusnaya lingvistika: ucheb.-metod. posobie [Corpus Linguistics]. Teaching Manual. Saint-Petersburg, 2005. 48 p. (In Russian).

2. Plungyan VA. Korpus kak instrument i kak ideologiya: o nekotorykh urokakh sovremennoy korpusnoy lingvistiki [Corpus as a Tool and Ideology: Some Lessons of Modern Corpus Linguistics]. Russkiy yazyk v nauchnom osveshchenii - The Russian Language in Scientific Light, 2008, no. 16 (2), pp. 7-20. (In Russian).

3. LDC Top Ten Corpora. Available at: //www.ldc. upenn.edu/Catalog/topten.jsp (Accessed 17 June 2013).

4. Chinese Broadcast Conversation Speech. Available at: http://www.ldc.upenn.edu/Catalog/CatalogEntry. jsp?catalogId=LDC2013S04 (Accessed 17 June 2013).

5. The Corpus of Spontaneous Japanese. Available at: http://www.ninjal.ac. jp/products-k/katsudo/seika/ corpus/public/index.html (Accessed 17 June 2013).

6. The Spoken Turkish Corpus. Available at: http:// stc.org.tr (Accessed 17 June 2013).

7. Foneticheskiy korpus spontannoy estonskoy rechi [Phonetic Corpus of Estonian Spontaneous Speech]. Available at: http://www.murre.ut.ee/phonetic-corpus (Accessed 17 June 2013).

8. Foneticheskiy korpus nemetskogo razgovornogo yazyka [Phonetic Corpus of Spoken German]. Available: http://dsav-wiss.ids-mannheim.de/korpora/pf/pf _doku. htm (Accessed 17 June 2013).

9. Foneticheskie korpusy russkogo i polskogo yazykov [Phonetic Corpuses of Russian and Polish]. Available at: http://www.voycemethods.com/new/databases/corpuses. php3 (Accessed 17 June 2013).

10. Das Deutsche Referenzkorpus (DeReKo). Available at: http://www.ids-mannheim.de/kl/projekte/korpora (Accessed 17 June 2013).

11. British National Corpus (BNC). Available at: http://www.natcorp.ox.ac.uk (Accessed 17 June 2013).

12. The Corpus of Contemporary American English (COCA). Available at: http://corpus.byu.edu/coca (Accessed 17 June 2013).

13. LIVACSynchronous Corpus. Available at: http:// www.rcl.cityu.edu.hk/livac (Accessed 17 June 2013).

14. Magyar Nemzeti Szovegtár. Available at: http:// corpus.nytud.hu/mnsz (Accessed 17 June 2013).

15. Corpus del español. Available at: http://www. corpusdelespanol.org (Accessed 17 June 2013).

16. Sorpus di riferimento della lingua italiana scritta contemporanea ("CoLFIS"). Available at: http:// www.ge.ilc.cnr.it/dizionari.php (Accessed 17 June 2013).

17. Cesky národní korpus (CNK). Available at: http://ucnk.ff.cuni.cz (Accessed 17 June 2013).

18. Natsionalnyy korpus russkogo yazyka [The National Corpus of Russian]. Available at: http://www. ruscorpora.ru (Accessed 17 June 2013).

19. Badmaeva L.D., Badagarov Zh.B., Tsydypov B.Z. Obshchie problemy formirovaniya korpusa buryatskogo yazyka [General Problems of Forming a Corpus of the Buryat Language]. Trudy mezhdunarodnoy konferentsii «Korpusnaya lingvistika - 2008» [Proc. Int. Conf. "Corpus Linguistics - 2008"]. Saint-Petersburg, October 6-10, 2008, pp. 24-30. (In Russian).

20. Kukanova VV. Arkhitektura metaopisaniya v Natsionalnom korpuse kalmytskogo yazyka [Architecture of Meta-Description in the National Corpus of Kalmyk]. Vestnik Kalmytskogo instituta gumanitarnykh issledovaniy RAN - Bulletin of the RAS Kalmyk Institute for the Humanities, 2011, no. 1, pp. 139-145. (In Russian).

21. Korpus lezginskogo yazyka [A Corpus of the Lezgin Language]. Available at: http://www. dag-languages. org/LezgyanCorpus/search/ (Accessed 17 June 2013).

22. Korpus osetinskogo yazyka [A Corpus of the Os-setian Language]. Available at: http://www.ossetic-studies.org/iron-corpus/search/index.php?interface_ language=ru. (Accessed 17 June 2013).

23. Zubanov A.K. Printsipy leksicheskoy i morfo-logicheskoy razmetki v korpuse kazakhskikh tekstov [Principles of Lexical and Morphological Marking in the Corpus of Kazakh Texts]. Tiltanym - Journal of the A. Baytursynov Institute of Linguistics, Kazakhstan, Almaty, 2012, no. 1, pp. 18-25. (In Kazakh).

24. Suleymanov D.Sh., Khakimov B.E., Gilmullin R.A. Korpus tatarskogo yazyka: kontseptualnye i lingvistiches-kie aspekty [A Corpus of the Tatar language: Conceptual and Linguistic Aspects]. Vestnik Tatarskogo gosudarstven-nogo gumanitarno-pedagogicheskogo universiteta - Bulletin of the Tatar State Humanitarian and Pedagogical University, 2011, no. 4 (26), pp. 211-216. (In Russian).

25. Salchak A.Ya. Elektronnyy korpus tekstov tuvinskogo yazyka [An Online Corpus of the Tuvinian

language]. Novye issledovaniya Tuvy - New Research of Tuva (electronic journal), 2012, no. 3. Available at: http:// www. new-tuva. info/journal/issue_ 15/5231 -salchak. html (Accessed 17 June 2013).

26. Korpus razgovornogo turetskogo yazyka [A Corpus of Spoken Turkish]. Available at: http://std.metu. edu.tr (Accessed 17 June 2013).

27. Elektronnyy korpus shorskikh tekstov [An Online Corpus of Shor Texts]. Available at: http://shoriya. ngpi.rdtc.ru (Accessed 17 June 2013).

28. Sheymovich A.V. Morfologicheskaya razmetka korpusa khakasskogo yazyka [Morphological Marking in the National Corpus of Khakas]. Rossiyskaya tyurkologiya - Russian Turkology, 2011, no. 2 (5), pp. 48-61. (In Russian).

29. Gadzhiakhmedov N.E. Na puti sozdaniya dialektnogo korpusa kumykskogo yazyka [The Development of a Corpus of Dialects of the Kumyk Language]. Aktualnye problemy dialektologii yazykov narodov Rossii: materyaly XIII Mezhdunarodnoy konferentsii [Proc. 13 th Int. Conf. "Topical Problems on Dialectology of the Peoples of Russia"]. Ufa, 2013, pp. 177-179. (In Russian).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

30. Sadykov T., Sharshembaev B. O cozdanii nat-sionalnogo korpusa eposa "Manas" [On the Creation of the National Corpus of the Epic "Manas"]. Kompyuternaya obrabotka tyurkskikh yazykov. Pervaya Mezhdunarodnaya konferentsiya: trudy [Proc. 1st Int. Conf. "The Computer Processing of the Turkic Languages"]. Astana, Lev Gumilev Eurasian National University, 2013, pp. 148-154. (In Kirghiz).

31. Sirazitdinov Z.A. Modelirovanie grammatiki bashkirskogo yazyka. Slovoizmenitelnaya sistema [The Modeling of Bashkir Grammar. Inflectional System]. Ufa, Gilem, 2006. 160 p. (In Russian).

Р.И. Аблеев, Р.Р. Шаймухаметов

О «ФЕСТИВАЛЕ НАУКИ» В УФЕ (14 сентября 2013 г.)

В здании Академии наук Республики Башкортостан с аншлагом прошел «Фестиваль науки». Организаторами фестиваля выступили Академия наук РБ, Фонд поддержки и развития нау-

ки РБ, Министерство молодежной политики и спорта РБ, Администрация ГО г. Уфа, Фонд содействия развитию малых форм предприятий в научно-технической сфере, Фонд «Династия».

Аблеев Руслан Иршатович, кандидат химических наук, главный ученый секретарь АН РБ (Уфа), e-mail: ableevri@ yandex.ru

Шаймухаметов Руслан Рустемович, исполнительный директор Фонда поддержки и развития науки РБ (Уфа), e-mail: rbek@mail.ru

Ruslan I. Ableev, Cand.Sc. (Chemistry), Chief Academic Secretary of the Academy of Sciences of the Republic of Bashkortostan (Ufa, Russia), e-mail: ableevri@yandex.ru

Ruslan R. Shaymukhametov, Executive Director of the Bashkortostan Foundation for Science Support and Development (Ufa, Russia), e-mail: rbek@mail.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.