Научная статья на тему 'Разработка и применение корпусных технологий для образовательных задач'

Разработка и применение корпусных технологий для образовательных задач Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
397
69
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЭЛЕКТРОННЫЙ КОРПУС / РАЗРЕШЕНИЕ МНОГОЗНАЧНОСТИ / ОБРАЗОВАТЕЛЬНЫЕ ТЕХНОЛОГИИ ДЛЯ ИЗУЧЕНИЯ ЯЗЫКА / DIGITAL CORPUS / HOMONYMY DISAMBIGUATION / EDUCATIONAL LANGUAGE TECHNOLOGIES

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Невзорова Ольга Авенировна

В статье обсуждаются проблемы разработки электронных корпусов, имеющих мощный образовательный потенциал. Одной из первых технологических проблем подготовки электронного корпуса является проблема разрешения многозначности. В статье рассматривается метод контекстного разрешения грамматической (частеречной) омонимии для русского языка, основные методологические проблемы метода и результаты реализации предложенного подхода в онтолингвистической системе "OntoIntegrator".

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The problems of development of the digital corpus which have powerful educational potential are considered in the article. One of the first technological problems of construction of the digital corpus is the problem of homonymy disambiguation. The method of context-sensitive disambiguation of grammatical (functional) homonymy for Russian is discussed in the article. The main methodological problems of a method and results of implementation of the offered approach in ontolinguistic system "OntoIntegrator" are considered.

Текст научной работы на тему «Разработка и применение корпусных технологий для образовательных задач»

Разработка и применение корпусных технологий для образовательных задач

Ольга Авенировна Невзорова НИИ "Прикладная семиотика" АН РТ, Казань, Россия onevzoro@gmail.com

Аннотация

В статье обсуждаются проблемы разработки электронных корпусов, имеющих мощный образовательный потенциал. Одной из первых технологических проблем подготовки электронного корпуса является проблема разрешения многозначности. В статье рассматривается метод контекстного разрешения грамматической (частеречной) омонимии для русского языка, основные методологические проблемы метода и результаты реализации предложенного подхода в онтолингвистической системе "OntoIntegrator".

The problems of development of the digital corpus which have powerful educational potential are considered in the article. One of the first technological problems of construction of the digital corpus is the problem of homonymy disambiguation. The method of context-sensitive disambiguation of grammatical (functional) homonymy for Russian is discussed in the article. The main methodological problems of a method and results of implementation of the offered approach in ontolinguistic system "OntoIntegrator" are considered.

Ключевые слова:

электронный корпус, разрешение многозначности, образовательные технологии для изучения языка

digital corpus, homonymy disambiguation, educational language technologies

Введение

Современные информационные технологии позволяют модернизировать образовательный процесс, использовать в процессе обучения новые образовательные ресурсы. К таким новым образовательным ресурсам относятся электронные корпуса национальных языков, которые активно развиваются в различных национальных и международных проектах. В настоящей статье рассматриваются актуальные вопросы применения электронных корпусов в преподавании, а также некоторые важные информационные технологии подготовки корпусов, в частности, технология разрешения грамматической омонимии.

Одним из успешно развивающихся проектов электронных корпусов является Национальный корпус русского языка (www.ruscorpora.ru), который разрабатывается большой группой специалистов из Москвы (Институт русского языка им. В.В.Виноградова РАН, ВИНИТИ РАН, ИППИ РАН и др.), Санкт-Петербурга (СПбГУ), Воронежа и других городов России. Национальный корпус русского языка (НКРЯ) размещен в свободном доступе, его текущий объем - более 140 млн слов. Корпус русского языка — это информационно-справочная система, предназначенная для профессиональных лингвистов, преподавателей языка, школьников и студентов, иностранцев, изучающих русский язык. Основной корпус составляют тексты, представляющие русский литературный язык: современные письменные тексты (середина XX — начало XXI века), корпус живой русской речи (записи устных текстов того же периода) и ранние тексты (середина XVШ — середина XX века). Все

тексты, входящие в основной корпус, аннотированы с использованием процедур метаразметки и морфологической разметки. Морфологическая разметка осуществляется с помощью специальных программ автоматического морфологического анализа. В небольшой части основного корпуса (объемом 5 млн. словоупотреблений) произведено ручное снятие омонимии и дополнительная коррекция результатов работы программы автоматического морфологического анализа. Эта часть образует так называемый эталонный морфологический корпус, который может служить удобным полигоном для тестирования различных программ поиска, морфологического анализа и автоматической обработки текстов, а также для исследований современной русской морфологии, требующих повышенной точности поиска. Очевидно, что подготовка эталонного корпуса требует тщательной лингвистической экспертизы и является весьма трудоемким процессом.

В настоящее время в состав НКРЯ входят, помимо Основного корпуса, Глубоко аннотированный корпус, содержащий тексты, снабженные морфосинтаксической разметкой; Корпус параллельных текстов, в котором тексту на русском языке сопоставлен перевод этого текста на другой язык или, наоборот, тексту на иностранном языке сопоставлен его перевод на русский язык; Корпус диалектных текстов, содержащий записи диалектной речи (в орфографии, приближенной к стандартной) из различных регионов России; Корпус поэтических текстов; Обучающий корпус русского языка; Корпус устной речи.

В аннотированном НКРЯ поддерживается как поиск точных форм, так и лексико-грамматический поиск, требующий задания грамматических и семантических признаков словоформ.

Одним их последних нововведений в НКРЯ стало появление портала «Национальный корпус русского языка и преподавание», на котором представлены учебные и методические материалы, использующие Корпус: упражнения, задания, методики организации самостоятельной работы в Корпусе, а также статьи и монографии на эти темы.

Корпус располагает комплексом современных словарей русского языка, в том числе рядом уникальных, к числу которых относятся словари неоднословных лексических единиц (оборотов), грамматический словарь новых слов русского языка и др. Благодаря эффективным процедурам поиска значительно упрощена процедура составления учебных заданий и их вариативность. Корпус является интегрированным справочником по лексике, грамматике, синтаксису и семантике, что делает его незаменимым для преподавания иностранным учащимся. Имеется положительный опыт применения Корпуса для подготовки заданий ЕГЭ по русскому языку. Использование Корпуса в образовательных целях, прежде всего, для преподавания русского языка и литературы, позволяет поднять качество преподавания этих учебных дисциплин. Ряд вопросов практического применения корпусов для преподавания обсуждается в [1]. Отмечается, например, что важную роль в обучении как языку, так и, в особенности, переводу, играют параллельные и многоязычные тематические корпуса. С помощью корпуса можно также развивать

специализированные, профессиональные аспекты владения языком: исследование

лексики и терминологии в профессиональной сфере (для технических и экономических специальностей) или способы категоризации и средства связности в текстах (для гуманитарных специальностей). Таким образом, корпус позволяет применить не только формально, но и концептуально дифференцированный подход к преподаванию языка. Именно на этом делают акцент корпусно ориентированные методы LSP (Language for Specific Purposes).

Методы и технологии подготовки электронных корпусов

Как отмечалось выше, подготовка электронных корпусов является сложной задачей и обеспечивается комплексом программных методов аннотирования. Аннотация слова включает ряд семантических и грамматических признаков, сопоставленных различным частям речи. Поэтому разрешение частеречной омонимии является одной из первых информационных технологий подготовки корпуса. В данном разделе будет рассмотрен оригинальный метод контекстного разрешения грамматической (функциональной) омонимии для русского языка.

К настоящему времени сформирована основная парадигма методов снятия грамматической (функциональной) многозначности, которая включает методы, основанные на правилах; методы машинного обучения, использующие вероятностные модели; гибридные методы.

В мировой литературе представлено большое число публикаций по разрешению омонимии на основе статистического подхода для основных европейских языков. Эта технология последние годы развивается для русского языка [2-5], прежде всего благодаря проекту "Национальный корпус русского языка" (www.ruscorpora.ru), который предоставляет размеченный подкорпус русского языка для настройки алгоритмов машинного обучения. В целом, статистические методы для автоматического разрешения многозначности для русского языка пока не достаточно изучены. Отсутствие для исследований доступного размеченного корпуса большого размера, позволяющего получить релевантные статистические данные распределения 500-2000 грамматических тегов, представляет одну из основных проблем метода.

Другим подходом к разрешению грамматической (функциональной) омонимии является подход на основе контекстных правил. Развитие контекстного метода способствовало более четкому выделению основных проблем, связанных, прежде всего, связанных с описанием явления функциональной омонимии в существующих лексикографических источниках; выделением синтаксически сложных случаев разрешения омонимии.

Метод контекстного разрешения функциональной омонимии (далее метод КРФО) базируется на тщательной лингвистической экспертизе и включает разработку базовых лингвистических и вычислительных моделей следующих задач:

1) Класс лексикографических задач включает задачи уточнения набора грамматических характеристик функциональных омонимов русского языка и построения полной классификации типов функциональных омонимов.

2) Класс вычислительных задач содержит в своем составе задачу построения минимального множества разрешающих контекстов для каждого функционального типа омонимов, задачу формализации контекстных условий, а также задачу построения управляющей структуры обобщенного правила, обеспечивающего максимальную точность распознавания для каждого функционального типа омонимов.

Рассмотрим предлагаемые решения для указанных типов задач метода КРФО.

1. Лексикографическая задача уточнения набора грамматических характеристик функциональных омонимов русского языка возникла при разработке метода КРФО и связана с недостатками существующих лексикографических описаний (грамматических словарей омонимов), на которых базируется метод. Явление омонимии в русском языке описано в различных словарях [9-14].

Сопоставительный анализ словарей выявил достаточно дискуссионную ситуацию с описанием явления функциональной омонимии. Прежде всего,

различия связаны с описанием сложных случаев функциональной омонимии, например, таких, в которых в многочленном ряду функциональных омонимов содержится член, относящийся к категории предикативов. Выборочный эксперимент

по сопоставлению лексикографических описаний омонимов типа «краткое прилагательное - наречие», осложненных наличием еще какой-либо морфологической характеристики (частица, предикатив, союз, модальное слово, предлог) дал достаточно показательный результат. Исходный список из 560 слов был выбран из словаря Ким- Островкиной. Грамматические характеристики слов из этого списка сравнивались с характеристиками по словарям Аношкиной, Зализняка и Национального корпуса русского языка. Так, только в трех случаях из 560 все четыре ресурса приписали омонимам одинаковые характеристики. Это омонимы прямо и исключительно с характеристиками «краткое прилагательное/наречие/частица», а также омоним относительно с характеристиками «краткое прилагательное/наречие/предлог».

Решение актуальной задачи уточнения набора грамматических характеристик функциональных омонимов было получено на основе сопоставительного анализа лексикографических источников и последующего уточнения выявленных характеристик на материале корпусных данных. В результате был построен список функциональных омонимов русского языка и уточнены наборы грамматических характеристик омонимов.

В результате проведенных исследований были уточнены количественные характеристики функциональной омонимии русского языка (оценка числа типов и количественный состав типов/подтипов омонимии). Словарь типов функциональных омонимов представлен в виде сводной таблицы, содержащей следующие поля:

• тип функциональной омонимии, заданный списком частей речи;

• текстовая расшифровка имени типа;

• упорядоченные списки омонимов заданного типа, распределенные по соответствующим словарям.

На основе сопоставительных методов получена числовая оценка типов функциональной омонимии для русского языка - 243 типа. Данная оценка учитывает не только распределения полных омонимов, но и омоформы (частичные омонимы, такие как стих, стекло - Vf/N), а также неравнообъемные - с полным совпадением для одного омонима и частичным для другого (летом - D/N). Полученная оценка, возможно, может быть незначительно уточнена в дальнейшем.

2. Вычислительные задачи метода КРФО базируются на лексикографическом описании, представленном в сводной таблице.

Исходные лингвистические данные включают данные о распределении функциональных типов омонимов и списки омонимов каждого функционального типа. Дополнительно, для омонимов частотных типов построено разбиение на подклассы по признаку частотности использования грамматических характеристик.

Главной задачей метода КРФО является оценка сложности алгоритмического разрешения функционального типа. Сложность алгоритмического разрешения типа определяется числом разрешающих контекстов, т.е. для каждого функционального типа T = T /T /••• /T , n = 1..6 вводится оценка сложности распознавания части

12 n

речи C (T ), которая определяется как число разрешающих контекстов для части

І

речи T . Сложность типа есть сумма соответствующих оценок

І

C(T) = C(T) + C(T ) + • + C(T ).

12 n

Под разрешающим контекстом омонима KR (X) понимается минимальный контекст (минимальная последовательность словоформ), содержащий в своем составе омоним X и разрешающий элемент R, грамматические характеристики которого достаточны для установления грамматических характеристик омонима в

этом контексте. При этом любое расширение разрешающего контекста (слева или справа) не влияет на результат разрешения омонима.

Утверждение 1. Сложность алгоритмического распознавания любой части

речи C (T ) является конечной.

i

Другими словами, существует конечное множество разрешающих контекстов для любой части речи. Действительно, в любом языке существует конечное число частей речи и конечное число типов синтаксических отношений для частей речи, поэтому число способов грамматической маркировки синтаксических отношений также конечно. Поэтому сложность распознавания омонима в контексте синтаксического отношения конечна.

При разработке метода КРФО необходимо последовательно решить следующие вычислительные задачи:

1). Задача построения множества разрешающих контекстов омонима на основе корпусных исследований. Для решения данной задачи был предложен алгоритм формирования классов синтаксических структур контекстов, который динамически формирует классы синтаксических шаблонов.

Синтаксический шаблон есть частично-упорядоченная последовательность

элементов (лексико-грамматических классов) вида S = Sj + S2 Н---------Н Sn, где

Sj (i = 1, n) - обязательный или факультативный элемент (класс). На первом шаге

алгоритма из корпусных данных выделяется синтаксический шаблон заданного размера и устанавливается его принадлежность определенному классу шаблонов. На втором шаге для каждого нового класса синтаксических шаблонов проводится экспертная оценка, т.е. устанавливается, является ли данный класс разрешающим. В результате работы алгоритма формируется множество разрешающих классов синтаксических шаблонов, в которых выделены разрешающие элементы.

Для формализации синтаксического шаблона разрешающих контекстов разработан специальный формальный язык, на котором записываются правила разрешения омонимии. Правила имеют вид if B(X) then X е S, где B(X) -контекстное условие, X - омоним функционального класса S, т.е. если омоним X находится в контексте B, то омоним разрешается как элемент функционального класса S.

Простое контекстное условие B(X) содержит частично-упорядоченную последовательность символов грамматических классов или подклассов определенной, дополненных ограничениями на конкретные лексические единицы. Сложное контекстное условие B(X) включает правила построения определенных синтаксических структур и их анализ. Элементарные правила представлены в таблице 2.

Таблица 2. Элементарные правила

№ Правило Комментарий

1. Правило согласования X pgnY X согласован с У по характеристикам р^,п

2. Правило следования A+B А предшествует В

3. Правило альтернативы A B А или В

4. Правило исключения A \ a А за исключением элемента а

5. Правило отрицания A не А

6. Правило ограничения длины контекста K < n Длина контекста К не превосходит п

Простое контекстное условие строится как суперпозиция элементарных правил (1-6).

Например, условие

задает левый контекст омонима X длина

которого не превосходит 2 или ограничена знаками-ограничителями, в котором есть предлог Р, отсутствует элемент из класса N *, допускающий согласование по предлогу Р и, возможно, имеет вставочные конструкции 2.

Соответствующее контекстное правило і/

Р + N (2)

-X

ґквп X = N

разрешает омоним X как N , если выполняется контекстное условие правила.

Сложные правила содержат дополнительные усложнения в виде специальных правил сборки синтаксических групп (групп с однородными членами). Такое усложнение обусловлено высокой частотностью конструкций с однородными членами для некоторых типов функциональных омонимов, например, для типа

Б / ЛЪг / К,

(наречие / краткое прилагательное/предикатив)

или

N / А (существительное - местоименное существительное/прилагательное -причастие - местоименное прилагательное) и др. Построение однородной группы позволяет искать разрешающий элемент за границами однородной группы; тем самым, реально увеличивается численный интервал разрешающего контекста. Разрешение омонима за границами однородной группы, т.е. учет не только локального контекста омонима, но и дальнего окружения составляет одно из важных преимуществ метода (по сравнению со статистическими методами). Например, в предложении "Однако, разбить программу на отдельные подсистемы одним из определенных и корректных способов вполне возможно, важно и даже выгодно" присутствует однородная группа омонимов "вполне возможно, важно и даже выгодно", содержащая омонимы возможно, важно, выгодно типа "наречие /краткое прилагательное / предикатив". С помощью специального правила анализа однородной группы указанные выше омонимы разрешаются как предикативы.

2). Построение структуры обобщающего правила

Для каждого типа функциональной омонимии разрабатывается обобщенное правило разрешения омонимии данного типа. Обобщенное правило представляет собой упорядоченную совокупность правил, записанных на специальном формальном языке. Каждое правило фиксирует некоторый разрешающий контекст. Структура задает порядок применения правил, который базируется на оценке частотности контекстов.

Разработка обобщенного правила требует решения следующих подзадач:

a) Выделение дефолтного значения. Обобщенное правило всегда имеет значение по умолчанию, которое приписывается омониму, если ни одно из локальных правил не применено.

b) Построение оценки сложности алгоритмического разрешения каждого функционального типа омонима, которая включает определение минимального множества разрешающих контекстов для каждого типа. Функциональный тип с минимальной сложностью распознавания становится опорным для обобщенного правила. Обобщенное правило ориентируется на распознавание опорного типа,

т.е. выстраивается последовательность локальных правил для распознавания опорного типа, и если ни одно из локальных правил не применяется, омониму приписывается альтернативный (дефолтный) тип.

с) Упорядочивание локальных правил в структуре обобщенного правила необходимо для достижения максимальной точности распознавания омонимов заданного типа. Первыми отрабатывают правила с высокой частотностью и устойчивым (бесконфликтным) разрешением. К таким устойчивым моделям относятся модели управления, фразеологические и сравнительные обороты, устойчивые словосочетания. Метод контекстных правил использует ограниченный контекст и поэтому резкие изменения контекстных расстояний (под влиянием существенных изменений порядка слов) влияют на точность метода. Поэтому при выборе последовательности правил учитываются возможные инверсии порядка слов и потенциальные контекстные флуктуации. Чем сильнее потенциальная динамика контекста, тем позднее применение соответствующего правила. Таким образом, упорядочивание локальных правил производится на основе критериев частности и динамичности локальных контекстов.

Пример обобщенного правила для регулярного подтипа типа N*/Vf (существительное /личная форма глагола, например, бегу, вызову, гнет) приведен ниже на рис. 1. Данное правило применимо к подгруппе регулярных омонимов указанного типа, т.е. омонимов, которые условно равночастотно являются существительными или личными формами глагола, при этом правило фактически направлено на распознавание типа Vf, т.е. если найдены соответствующие разрешающие контексты, то омоним распознается как Vf, иначе - как N. Однако, распознавание омонима как N имеет два очень частотных контекста, поэтому соответствующие контексты включены в структуру обобщенного правила (правила 1 и 2).

Некоторые комментарии к обобщенному правилу для регулярного подтипа типа N*/Vf:

1. Обобщенное правило может включать набор лексических или лексикограмматических шаблонов (Con), которые содержат высокочастотные модели сочетаемости конкретных омонимов с лексическими единицами или классами лексических единиц. В рассматриваемом примере приводится набор лексических шаблонов для омонима гнет.

Con (‘гнет’):

a) IF [(Х='гнет')+'свое' ] / ['свое' +(Х='гнет')] THENX=Vf

b) IF [(Х='гнет')+'свою линию'] / ['свою линию' +(Х='гнет')] THENX=Vf.

2. Локальное правило 9 предназначено для сборки однородной группы глаголов (омоним в составе однородной группы глаголов разрешается как глагол Vf ).

3. Локальное правило 3 разрешает омоним X в составе устойчивых оборотов. Вхождение омонима в состав устойчивых оборотов проверяется на первых шагах, так как имеет высокую точность распознавания.

Тестирование и отладка обобщенного правила проводилось на примерах из Национального корпуса русского языка и Интернет-библиотеки М.Мошкова. Отладка обобщенного правила связана с настройкой изменяемых параметров правила, к числу которых относится длина разрешающего контекста, порядок локальных правил, увеличение числа лексико-грамматических шаблонов. В результате получена точность разрешения омонимии для каждого их построенных обобщенных правил не ниже 95%. Примерно 5 % контекстов, разрешенных с ошибкой, относятся к сложным случаям разрешения омонимии и их анализ будет приведен в разделе "Сложные проблемы метода". Оценки точности по группе обобщенных правил приведены в таблице 5.

A * n pgn x(Z)N r A*

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1) if [------------------------------X] then X = N *

< 3

P r X (Z) N r p

2) if [---------------------------X] then X = N *

<3

3) if [, как X, ] / [, словно X,] / [, будто X,] then X = N *

4) Con

(D - Dmd - Dp)(Z) V * Av (Z) V * Av(D - Dmd - Dp)

5) if [----------------------------X] / [X-------------------------------------------] then X = Vf

< 3/ ® <3/ ®

V *(Z)

6) if [---------------X] then (if L > 3 then X = Vf else goto 7) else X = N *

< 5/ ® left

V *(Z)

7) if [X------------] then (if L > 3 then X = Vf else goto 8) else X = N *

< 4 / ® right

* * * *

N n x = Vf (Z) Vf n x N n x = Vf

plgnf gnf plgnf

8) if [--------^------------------------—— X]/[X-----------------------------] then X = Vf

< 5/ ® 1

9) if [X = Vf < Sv& > Vf Пgnf X] / [Vf Пgnf X < Sv& > X = Vf ] then X = Vf else X = N

Рис. 1. Обобщенное правило для регулярного подтипа типа N*/Vf

Таблица 3. Оценки точности обобщенных правил

Тип обобщенного правила Точность

N*/A* (сущ./местоим. сущ./прил./прич.) 96%

N*/Vf (сущ./местоим. сущ./личная форма глагола) 97%

D/Abr* (наречие/ кр.прил./кр. прич.) 97%

Проведенные теоретические и экспериментальные исследования метода позволили сформулировать ряд следующих утверждений.

Утверждение 1. Число синтаксических моделей полных предложений русского языка является конечным.

Данное утверждение основывается на конечной оценке числа грамматических категорий русского языка и их взаимных комбинациях.

Утверждение 2. Для полных предложений русского языка построенные обобщенные правила являются достаточными для распознавания явления функциональной омонимии.

Доказательство данного утверждения базируется на экспериментальных проверках и утверждении 1 об ограниченности числа синтаксических моделей предложений. В этом случае принципиально возможно построить полное множество разрешающих контекстов для каждого функционального типа омонимии.

Утверждение 3. Синтаксические модели неполных предложений, характерные, преимущественно, для устной речи, являются ограничением метода и требуют для его применения построения специальных процедур логического вывода для получения информации о типе синтаксической модели неполного предложения.

Реализация и эксперименты

Реализация метода контекстного разрешения грамматической омонимии и эсперименты по аннотированию текстов проведены в онтолингвистической системе "ОйоШ^гайг" [8]. Программный комплекс состоит из трех взаимодействующих подсистем: подсистемы лингвистического анализа технических текстов

"Анализатор", подсистемы ведения онтологии "Оп1оЕ&1ог+" и подсистемы "Интегратор". Взаимодействие подсистем реализовано на базе технологии "клиент-сервер", причем в различных подзадачах подсистемы выступают в различных режимах (режим сервера или режим клиента). Подсистема "Анализатор" реализует основные этапы лингвистической обработки текста (графематический, морфосинтаксический и частичный синтаксический анализ). Метод контекстного разрешения функциональной омонимии является одной из базовых лингвистических технологий подсистемы "Анализатор".

Заключение

Рассмотренный в настоящей статье подход к построению метода контекстного разрешения грамматической омонимии для русского языка и практические оценки точности метода позволяют применять основные идеи подхода к решению данной задачи в других языках.

В настоящее время актуальным является проект электронного корпуса татарского языка, выполняемый в НИИ "Прикладная семиотика" АН РТ. Этот проект находится в стадии выработки основных концептуальных решений, направлений и перспектив применения. Поскольку для татарского языка задача разработки электронного корпуса поставлена и решается впервые, основным методом разрешения грамматической омонимии будет метод, основанный на правилах. Разработка эффективного корпусного программного инструментария является одной из актуальных задач проекта, который, несомненно, имеет большие перспективы применения как в научных, так и образовательных целях. Проект «Электронный корпус татарского языка» позволит впервые системно описать татарский язык на всех языковых уровнях.

Разработка корпуса татарского языка и параллельных (двуязычных в паре с татарским) корпусов для преподавания позволяет фактически создать новый дидактический материал. Параллельные корпуса (текст оригинала - текст перевода) становятся своего рода экспертной системой, помогающей найти как типовое, так и нестандартное решение частных проблем перевода. Следует также отметить и достаточно новое направление в корпусной лингвистике - создание учебных корпусов. Учебные корпуса, то есть корпуса, составленные из текстов, авторами которых являются изучающие язык студенты и учащиеся, позволяют им не только научиться обобщать и классифицировать языковые данные, но и видеть наиболее типичные лексические и грамматические ошибки. Таким образом, на первое место выходит анализ «отрицательных» примеров, умение самостоятельно обнаруживать и избегать типичных языковых ошибок.

В заключении можно отметить, что разработка и применение корпуса языка требует не только непростых организационных и технических усилий, но и проведение серьезных научных лингвистических исследований, а также разработки новых информационных технологий для поддержки функционирования языкового корпуса.

Благодарности

Исследование выполнено при финансовой поддержке РФФИ, грант № 08-0600183.

Литература

1. Bemardini, Silvia. Corpora in the classroom. An overview and some reflections on &ШгеФ developments. In: Sinclair, John McH., ed. How to use corpora in language teaching. - Amsterdam [u.a.] : Benjamins, 2004.

2. Зеленков Ю.Г. Вероятностная модель снятия морфологической омонимии на основе нормализующих подстановок и позиций соседних слов / Зеленков Ю.Г., Сегалович И.В., Титов В.А. // Труды международного семинара Диалог’2005., 2005.

- С. 188-197.

3. Кобзарева Т.Ю. Универсальный модуль предсинтаксического анализа омонимии частей речи в РЯ на основе словаря диагностических ситуаций / Кобзарева Т.Ю., Афанасьев Р.Н. // Труды междунар. конференции Диалог'2002. - М., 2002. - С. 258-268.

4. Кобрицов Б.П. Снятие лексико-семантической омонимии в новостных и газетно-журнальных текстах: поверхностные фильтры и статистическая оценка / Кобрицов Б.П., Ляшевская О.Н., Шеманаева О.Ю. // Интернет-математика 2005 http://companv.vandex.ru/grant/list.xml.

5. Найденова К.А., Невзорова О.А. МАШИННОЕ ОБУЧЕНИЕ В ЗАДАЧАХ ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА: ОБЗОР СОВРЕМЕННОГО СОСТОЯНИЯ ИССЛЕДОВАНИЙ // Ученые записки Казанского государственного университета. Серия: Физико-математические науки. 2008. Т. 150. № 4. С. 5-24.

6. Невзорова О.А. Онтолингвистические системы: технологии взаимодействия с прикладной онтологией // Ученые записки Казанского государственного университета. Серия физико-математические науки. - 2007. - Кн. 149. - С. 105-115.

7. Сокирко А.В., Сравнение эффективности двух методик снятия лексической и морфологической неоднозначности для русского языка (скрытая модель Маркова и синтаксический анализатор именных групп) / Сокирко А.В., Толдова С.Ю. // Интернет-математика-2005. http://companv.vandex.ru/grant/list.xml

8. Hana, Jirka A Resource-light approach to Russian morphology: tagging Russian using Czech resources / Hana, Jirka, Feldman, Anna and Brew, Chris. In Proceedings of Empirical Methods for Natural Language Processing (EMNLP). Barcelona, Spain, 2004. -P. 222-229.

9. Sharoff Serge Designing and evaluating a Russian tagset / Serge Sharoff, Mikhail Kopotev, Tomaz Eijavec, Anna Feldman and Dagmar Divjak. - In Proc. LREC 2008, Marrakech, Mav, 2008.

Словари омонимов русского языка

10. Ахманова А.С. Словарь омонимов русского языка. - М., 1984.

11. Аношкина Ж.Г. Словарь омонимичных словоформ русского языка. - М.: Машинный фонд русского языка Института русского языка РАН, 2001. (http://irlras-cfrl.rema.ru:8100/homoforms/index.htm).

12. Ким О.М., Островкина И.Е. Словарь грамматических омонимов русского языка. - М., 2004.

13. Колесников Н.П. Словарь омонимов русского языка. - Тбилиси, 1978.

14. Национальный корпус русского языка http ://www. ruscorpora.ru

15. Сайт "Вавилонская башня" http://starling.rinet.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.