Научная статья на тему 'Исследование грамматики связей на примере казахского и турецкого языков'

Исследование грамматики связей на примере казахского и турецкого языков Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
1824
182
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ГРАММАТИКА СВЯЗЕЙ / МОРФОЛОГИЧЕСКИЙ АНАЛИЗАТОР / СИНТАКСИЧЕСКИЙ ПАРСЕР / АГГЛЮТИНАТИВНЫЙ ЯЗЫК / СЕМАНТИКА ВЫСКАЗЫВАНИЙ / LINK GRAMMAR / MORPHOLOGICAL ANALYZER / SYNTACTIC PARSER / AGGLUTINATIVE LANGUAGE / SEMANTIC OF UTTERANCES

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Бакиева Айгерим Муратовна, Батура Татьяна Викторовна, Еримбетова Айгерим Сембековна, Митьковская Мария Владимировна, Семенова Наталья Александровна

Целью данной работы являлось исследование применимости грамматики связей и создание инструмента для автоматического разбора предложений на казахском и турецком языках. Такой выбор языков обусловлен активным распространением исламской культуры и тем, что тексты на этих языках широко представлены в интернете. В качестве инструмента выбран анализатор Link Grammar Parser, для составления подключаемых словарей применялись приемы из логики исчисления предикатов. В статье продемонстрирована связность различных уровней анализа, предложен подход, позволяющий учесть семантические отношения уже на этапах морфологического и синтаксического анализа. Описана модель семантической разметки предложений. Ведется работа по увеличению подключаемых словарей. В будущем планируется расширить список семантических связей для разметки текстов, чтобы применять полученные результаты при создании систем определения тем текстов и систем автоматического резюмирования.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Бакиева Айгерим Муратовна, Батура Татьяна Викторовна, Еримбетова Айгерим Сембековна, Митьковская Мария Владимировна, Семенова Наталья Александровна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

RESEARCH OF LINK GRAMMAR FOR KAZAKH AND TURKISH LANGUAGES

The purpose of this work is to study the applicability of the link grammar to the Kazakh and Turkish languages. Our choice of these languages is determined by increasing spread of the Islam culture and the fact that texts in these languages are widely represented on the Internet, but investigations of the syntax and semantics structure of the Kazakh and Turkish languages are slightly presented. Therefore text processing in these languages is a challenge. Link Grammar Parser was selected as a tool for parsing. We used the methods of first-order predicate calculus to compile plug-in dictionaries. The coherence of different levels of analysis by the example of Turkic languages was demonstrated. An approach that allows to take into account the semantic links during morphological and syntactic levels was proposed. A model of semantic markup of sentences was described in this paper. We are working to extend the dictionaries for the Link Grammar Parser. In the future we plan to expand the list of links for markup of a text (sequences of related sentences) to be able to use the results to create topic identification systems and automatic summarization systems.

Текст научной работы на тему «Исследование грамматики связей на примере казахского и турецкого языков»

УДК 004.048:519.765

А. М. Бакиева \ Т. В. Батура 1 2, А. С. Еримбетова 1 М. В. Митьковская 1, Н. А. Семенова 1

1 Новосибирский государственный университет ул. Пирогова, 1, Новосибирск, 630090, Россия

2 Институт систем информатики им. А. П. Ершова СО РАН пр. Академика Лаврентьева, 6, Новосибирск, 630090, Россия

[email protected], tatiana.v.batura@gmail. com, aigerian @mail.ru [email protected], [email protected]

ИССЛЕДОВАНИЕ ГРАММАТИКИ СВЯЗЕЙ НА ПРИМЕРЕ КАЗАХСКОГО И ТУРЕЦКОГО ЯЗЫКОВ

Целью данной работы являлось исследование применимости грамматики связей и создание инструмента для автоматического разбора предложений на казахском и турецком языках. Такой выбор языков обусловлен активным распространением исламской культуры и тем, что тексты на этих языках широко представлены в интернете. В качестве инструмента выбран анализатор Link Grammar Parser, для составления подключаемых словарей применялись приемы из логики исчисления предикатов. В статье продемонстрирована связность различных уровней анализа, предложен подход, позволяющий учесть семантические отношения уже на этапах морфологического и синтаксического анализа. Описана модель семантической разметки предложений. Ведется работа по увеличению подключаемых словарей. В будущем планируется расширить список семантических связей для разметки текстов, чтобы применять полученные результаты при создании систем определения тем текстов и систем автоматического резюмирования.

Ключевые слова: грамматика связей, морфологический анализатор, синтаксический парсер, агглютинативный язык, семантика высказываний.

Введение

Необходимость исследования грамматики связей возникла в связи с задачей автоматического реферирования документов научно-технической тематики, а также в связи с созданием системы определения тем текстов. На сегодняшний день статистические методы подсчета совместной встречаемости слов являются довольно распространенными при автоматизации обработки текстовой информации на естественном языке. Однако, как отмечает Н. В. Лукашевич [1], недостаточное использование лингвистических и онтологических знаний приводит к различным проблемам: нерелевантному поиску и реферированию документов, некачественной классификации.

Одной из открытых задач в области информационных технологий и искусственного интеллекта является задача определения релевантности текста или части текста на естественном языке поисковому запросу с целью извлечения информации. Задача эффективного поиска актуальна, в частности, для сети Интернет, в особенности в связи с бурным развитием компьютерных социальных сетей. Вторая задача, тесно примыкающая к первой - это определение тем текстов, которое базируется на создании разного рода тезаурусов и онтологий. Одна из интересных возникающих здесь проблем состоит в том, что перестановка слов

Бакиева А. М., Батура Т. В., Еримбетова А. С., Митьковская М. В., Семенова Н. А. Исследование грамматики связей на примере казахского и турецкого языков // Вестн. Новосиб. гос. ун-та. Серия: Информационные технологии. 2016. Т. 14, № 3. С. 5-14.

ISSN 1818-7900. Вестник НГУ. Серия: Информационные технологии. 2016. Том 14, № 3 © А. М. Бакиева, Т. В. Батура, А. С. Еримбетова, М. В. Митьковская, Н. А. Семенова, 2016

в предложении может существенно менять его смысл, что приводит к некорректной работе алгоритмов, оперирующих отдельными ключевыми словами, их частотами и т. д.

Традиционно в процессе автоматической обработки текста выделяют этапы морфологического и синтаксического анализа. После них предполагается осуществлять семантический анализ. Однако при обработке текста на агглютинативном языке, по нашему мнению, неверно пытаться выделить семантический анализ в отдельный этап. Это напрямую связано с особенностями словообразования в языках такого строя.

Согласно [2] агглютинативный язык - язык, имеющий строй, при котором доминирующим типом словоизменения является агглютинация («приклеивание») различных формантов (суффиксов или префиксов), причем каждый из них несет только одно значение. Казахский и турецкий язык относятся к типу синтетических агглютинативных языков тюркской группы алтайской семьи. Они обладают сложной и богатой морфологией. Обычно слова в них состоят из основы и добавляемых к ней аффиксов (суффикс + окончание), которых бывает, по крайней мере, два или три.

Как видно, уже на этапах морфологического и синтаксического анализа возникают семантические отношения. Над созданием систем морфологического и синтаксического анализа в настоящее время трудится много коллективов. В частности, в работах [3-7] описаны подходы, ориентированные на агглютинативные языки. В большинстве работ авторы ограничиваются рассмотрением морфологического строя казахского или турецкого языков, проводят их сравнительный анализ. Исследования по синтаксису и семантике представлены в небольшом количестве. Наша основная задача состоит в том, чтобы продемонстрировать связность различных уровней анализа: морфологического, синтаксического и семантического. На примере тюркских языков в некоторых случаях сделать это проще, чем, для русского. Вместе с тем такой выбор обусловлен активным распространением исламской культуры и тем, что тексты на этих языках широко представлены в интернете.

В данной статье мы ограничились рассмотрением семантических связей внутри отдельно взятого предложения. В будущем планируется расширить их список для разметки текстов (последовательностей связанных предложений). В качестве инструмента, позволяющего производить синтактико-семантический анализ предложений нами был выбран Link Grammar Parser. Подробнее об этом анализаторе говорится в следующем разделе.

Link Grammar Parser

Link Grammar Parser - синтаксический анализатор, разработанный Дэниелом Слитором и Дэви Темперл, который основан на грамматике связей. Подробное описание Link Grammar Parser можно найти в [8]. Анализируя предложение, система определяет синтаксическую структуру, которая состоит из множества маркированных звеньев, соединяющих пары слов. Основная идея грамматики связей позволяет наравне с синтаксической структурой предложения работать и с морфологией.

Такой подход позволяет рассматривать слова в качестве блоков с соединителями. Существуют различные типы соединителей; соединители могут указывать налево или направо. Левосторонний соединитель связывается с правосторонним соединителем того же типа другого слова. Вместе два соединителя образуют «связь». Правосторонний соединитель обозначается знаком «+», левосторонний - знаком «-».

Общие правила. Для слов существуют правила о том, как их соединители могут быть связаны, то есть правила о том, что будет представлять собой действительное использование данного слова. Действительным предложением является такое, в котором все присутствующие слова использованы обоснованно, согласно их правилам, и которые также удовлетворяют определенным общим критериям. Другими словами, помимо правил, указанных в словаре, существуют и другие общие правила, согласно которым среди всех возможных связей выбираются только удовлетворяющие критерию проективности и критерию минимальной связности. Поясним, в чем их суть.

Критерий проективности требует, чтобы связи не пересекались. Например, следующий способ (рис. 1) связать четыре слова («cat» и «dog», «horse» и «fish») будет неверным, парсер просто не найдет такие связи.

Рис. 1. Критерий проективности

Критерий минимальной связности накладывает следующее ограничение: все слова в предложении должны быть непосредственно связаны. Ниже изображен неверный способ связи этих четырех слов (рис. 2).

cat horse dog ~ish

Рис. 2. Критерий минимальной связности

Алгоритм разбора. Разбор проводится по аналогии со сборкой пазла (символизирует анализируемое предложение) из его кусочков (изображают отдельные слова). Язык представлен посредством словаря или лексики, которая состоит из слов и множества разрешенных «форм для пазла», которые могут иметь слова. Такая «форма» показывается соединителем, о которых мы говорили ранее. Так, имя собственное может иметь соединители Б- & 8+, указывающие на то, что оно может присоединять детерминатив (показатель при существительном, выражающий грамматическое значение определенности (артикль, местоименное прилагательное)) слева («Б-«), и являться подлежащим, в том случае, если присоединяется к глаголу справа («8+»). В свою очередь разбор показывает, что соединитель 8+ может присоединяться к соединителю 8-, образуя между этими словами связь «8». Разбор завершается тогда, когда все соединители присоединены друг к другу.

Заданное слово может иметь десятки и даже сотни разрешенных «форм для пазла» (которые здесь определены как «дизъюнкты»), например, многие глаголы могут быть факультативно транзитивными, что делает соединитель 0+ необязательным; также, такие глаголы могут присоединять к себе обстоятельства (соединители Е+), которые по своей природе необязательны. Таким образом, частью разбора является отбор одного единственного уникального дизъюнкта для слова; окончательный разбор должен выполнять соединение всех соединителей для этого дизъюнкта.

Словарная статья. Словарная статья состоит из слова, за которым следует двоеточие, за ним выражение из соединителей, а затем точка с запятой. Словарь состоит из ряда таких статей. Любое количество слов может быть помещено в список, разделенный пробелами, тогда они будут соответствовать всем требованиям связывания. Название соединителя доложено состоять из одной или нескольких прописных букв (может быть использовано любое число), затем любого числа строчных букв вместе с символом подстановки '*' и завершатся «+», «-« или «$».

На данный момент существуют подключаемые словари для английского, русского, персидского, арабского, немецкого, литовского, вьетнамского, индонезийского языков. Мы разрабатываем словарь для казахского и турецкого языков.

Связи для обозначения морфологических свойств слов

Связи, описывающие морфологические признаки слов, несут информацию как о словообразовании, так и о сочетании слов. Поскольку турецкий и казахский языки являются агглютинативными, образование новых слов и форм слов осуществляется последовательным присоединением аффиксов.

Выделяют [9-12] различные виды аффиксов для различных частей речи. Каждый вид отвечает за конкретный морфологический признак: число имени существительного, лицо глагола и т. д. Тогда каждой группе аффиксов сопоставим связь, при помощи которой он присоединяется к предыдущему аффиксу или основе. Теперь последовательное приписывание морфологических связей позволяет промоделировать процесс словообразования. Связи являются направленными, а точнее, обратно направленными (от последнего аффикса к предыдущему, и далее к основе).

Например, глагол читали в турецком языке образуется следующим образом:

okuyorlar = oku + yor + lar,

где

oku - основа;

yor - аффикс времени, означающий, что действие происходит в текущий момент;

lar - аффикс множественного числа.

Образование множественного числа существительных в турецком языке характеризуется наличием аффиксов -lar или -ler, присоединяющихся непосредственно к основе слова, т. е. эти аффиксы можно описать <lar, ler>: {Np-}. Аналогичные аффиксы есть в казахском языке: <лар, лер, дар, дер, тар, тер>: {Np-}. Тогда в описании основ слов в словаре должна присутствовать связь Np+, как необходимая пара для Np-.

Форма принадлежности существительных и местоимений турецкого языка характеризуется наличием аффиксов -m, -im, -im, -um, -üm; -n, -in, -in, -un, -ün; -si, -si, -su, -sü, -i, -i, -u, -ü, -miz, -miz, -muz, -müz, -ímiz, -imiz, -umuz, -ümüz, -niz, -niz, -nuz, -nüz, -iniz, -iniz, -unuz, -ünüz, -lari, -leri. Похожая ситуация наблюдается в казахском языке. Множество существительных и местоимений с такими аффиксами в зависимости от лица описывается при помощи связей: Np1-, Np2-, Np3-, Pp1-, Pp2-, Pp3-.

Аналогичным образом можно описать падежные аффиксы существительных: Nn - именительный; Ng - родительный; Nd - дательный; Na - винительный; Ni - творительный; Nl -местный (предложный); Nb - исходный. Некоторые из падежей почти полностью соответствуют русским падежам по значению, некоторые не имеют аналогий в русском языке и представляют собой особые формы.

Например, существительное книгу (чью-то) в турецком языке образуется следующим образом: kitabini = kitab + i + ni, где kitab - основа, полученная от слова kitab; i - аффикс принадлежности; ni - аффикс винительного падежа. Тогда согласно введенным обозначениям получаем следующий набор морфологических связей в словаре:

<kitab>: {Np3+}; <i>: {Np3-} & {Na+}; <ni>: {Na-}.

В казахском языке, так же как и в турецком, аффиксы обычно присоединяются в определенной последовательности. Сначала к основе присоединяется аффикс множественного числа, затем аффикс принадлежности, далее аффикс лица и в конце аффикс падежа. Руководствуясь этим правилом, будем дописывать связи в словаре.

Например, для существительного друзьям (нашим) в казахском языке: достарымызга = дос + тар + ымыз + га, где дос - основа слова; тар - аффикс множественного числа; ымыз -аффикс принадлежности; га - аффикс дательного падежа; получаем представление в словаре:

<дос>: {Np+}; <тар>: {Np-} & {Pp1+}; <ымыз>: {Pp1-} & {Nd+}; <га>: {Nd-}.

Помимо этого, существуют словообразующие аффиксы, позволяющие получать прилагательные из существительных <лы, т, ды, д^ ты, ri, сыз, из, дай, дей, тай, тей, льщ, лш, дьщ, дш, тыщ, тш, гы, ri, ^ы, ю>: {As-}, например, ай (месяц) - айлыц (ежемесячный). Или аффиксы, позволяющие образовывать глаголы из существительных и прилагательных <да, де, та, те, ла, ле, а, е, ар, ер, ^ар, кер, гар, гер>: {Vna-}. Глагольные аффиксы, к тому же, требуют присоединения аффикса -у (который образует инфинитив глагола) или аффикса лица. Например, глагол бастау (начинать) получается из существительного бас (начало) и имеет следующее описание в словаре:

<бас>: {Vna+}; <та>: {Vna-} & {V+}; <у>: {V-}.

Существительные, образованные от глаголов, характеризуются наличием аффиксов <шы, ш^ гыш, гiш, ^ыш, юш, ма, ме, ба, бе, па, пе>: {Sv-}, например, оцу (учиться) - оцушы (ученик). Аффиксы, добавляемые к существительным, для образования новых существительных, <кер, гер, лас, лес, дас, дес, тас, тес, льщ, лш, тьщ, тш, дьщ, дiк, шы, шi>: {Ss-}, например, гарыш (космос) - гарышкер (космонавт).

В казахском языке выделяют [11] следующие времена глагола. Каждое из времен характеризуется наличием определенных аффиксов. У субъективного прошедшего времени глагола имеются следующие аффиксы <ыпты, irni>: {Vas+}; у результативного прошедшего времени <^ан, ган, кен, ген>: {Var+}; у категорического прошедшего времени <ты, ri, ды, дi>: {Vac+}; у конкретного настоящего времени <п, ып, iп, а, е>: {Vr+}; у переходного будущего времени <ады, едi>: {Vft+}; у предположительного будущего времени <ар, ер>: {Vfs+}; у целенаправленного будущего времени <ма^, мек, па^, пек>: {Vfg+}. Далее (рис. 3) приведен разбор предложения, содержащего глагол с аффиксом целенаправленного будущего времени: Ол кешке болады. (Он будет вечером. He will be in the evening.)

ол.= кешке бол.= =ады.угд

Рис. 3. Предложение, содержащее глагол с аффиксом целенаправленного будущего времени

4. Связи для обозначения синтаксических функций слов

Синтаксические функции слов в предложении будем обозначать заглавными латинскими буквами. Для казахского и турецкого языков мы выделили следующие основные связи: AS -определение при подлежащем; AO - определение при дополнении; E - обстоятельство при сказуемом; J - соединяет послелог с существительным; OV - прямое дополнение при сказуемом; OJV - косвенное дополнение при сказуемом; S - соединяет подлежащее и сказуемое.

Если учитывать синтаксические функции слов в предложении, то каждой части речи можно сопоставить формулу из возможных связей. Рассмотрим пример структуры предложения на турецком языке. Имя существительное в предложении может выступать в роли подлежащего, к которому относятся определение и/или дополнение, сказуемое всегда будет справа: <N_S>: {AS-} & {OV+} & S+.

Кроме того, существительное может выполнять функцию дополнения, слева от которого также может быть определение, а справа может находиться послелог и сказуемое. Такая структура в общем случае будет описана формулой: <N_O>: {AO-} & {OV+} & {OJV+}.

Другой пример означает, что глагол может выступать в предложении в качестве сказуемого, слева от которого может быть подлежащее, дополнение (прямое или косвенное) или обстоятельство: <V_P>: {EI-} & {OV-} & {OJV-} & {S-}.

При этом обязательно в описании прилагательного должна присутствовать связь AI+, как необходимая пара для AI-, а в описании наречий - связь EI+, как необходимая пара для EI-. В противном случае связь не будет обнаружена.

Можно заметить (рис. 4), что при разборе предложения Адамдар алма жед1. (Люди съели яблоко. People ate an apple.) парсер определил 2 синтаксические (S3p, OV) и 2 морфологические (Np, Va3p) связи.

В следующем примере видно, что парсер определил 3 синтаксических (S3s, OJV, J) и 4 морфологических (Np,Va3s). Другой пример (рис. 5) - предложение с косвенным дополнением - Иттер мысыцтардыц артынан цуды. (Собаки гнались за кошками. Dogs chased the cats. )

Рис. 4. Пример предложения с прямым дополнением

+-----------------------53з----------------------+

+—Ыр-+ +---Ыр—+—Ыд—+---С---+—OJY-+-Va3s-+

III II III

ит . = =тер шсык,. = =тар.= =дьщ- ig артынан к;у= =UH.vac

Рис. 5. Пример предложения с косвенным дополнением

Следует заметить, что синтаксические связи могут возникать не только между словами, но и между группами слов, например, в случае составного глагольного сказуемого, составного именного сказуемого, причастного оборота и т. д. К глаголу присоединяются определенные аффиксы + дополнительный глагол при определении слова (табл. 1).

В турецком языке с окончаниями аффиксов глаголов в целом нами были выделены более 30 связей. Так как аффиксы окончаний глаголов не повторяются и более точно распределены. Тем самым можно легко вывести их по связям, и с помощью четкого строения агглютинативных предложений, в том что глаголы и их окончания всегда стоят в конце и отделяемы, можно определить время, лицо и число, а также то, что они стоят в инфинитиве. В казахском языке же некоторые аффиксы повторяются и времена можно определить с помощью дополнительных слов времени (табл. 2).

Таблица 1

Виды связей и аффиксы времен глаголов казахского языка

Вид глагола Аффиксы Связь

Субъективное прошедшее время ыпты, irni {Vas+}

Результативное прошедшее время ^ан, гаи, кен, ген {Var+}

Категорическое прошедшее время ты, tí, ды, дi {Vac+}

Конкретное настоящее время п, ып, ш, а, е {Vr+}

Переходное будущее время ады, едi {Vft+}

Предположительное будущее время ар, ер {Vfs+}

Целенаправленное будущее время ма^, мек, па^, пек {Vfg+}

Таблица 2

Виды связей и аффиксы основных времен турецкого языка

Вид глагола Аффиксы Связь

Настоящее продолженное время yor, iyor, íyor, uyor, üyor, oyor {VPC+}

Субъективное прошедшее время mi§, mi§, mu§, mü§ {VAS+}

Категорическое прошедшее время di, di, du, dü, ti, ti, tu, tü {VAC+}

Категорическое будущее время acak, ecek, aca, ece {VFD+}

Настоящее будущее время r, ir, ir, ur, ür, ar, er {VFP+}

Прошедшее несовершённое время (past imperfect tense) iyordu, íyordu, uyordu, üyordu, oyordu {VAI+}

Модель семантической разметки предложений

Для того, чтобы перейти от морфологических и синтаксических связей к семантическим, дальнейшие рассуждения удобнее проводить в терминах предикатов. Поскольку пользуемся грамматикой связей, то предикаты будут двухместные. Так, синтаксические связи, рассмотренные в предыдущем разделе, в некоторых случаях могут быть записаны в виде предикатов: AS (adjective, noun); AO (adjective, noun); E (adverb, verb); OJV (Nd (noun) | Na (noun) | Ni (noun) | Nl (noun) | Nb (noun), verb); S (Nn | Pn), verb) и т. д.

Отметим, что при таком подходе предикаты OV (x, y) и OJV (x, y) несут в себе информацию о глагольном согласовании, т. е. о зависимости употребления того или иного падежа перед определенным глаголом. В будущем планируется провести дополнительное исследование случаев глагольного согласования на примере казахского и турецкого языков.

Теперь можно ввести семантический предикат принадлежности:

OF (Possessor, ObjectOfPossession) = OF (Ng (noun) | Pg (pronoun), Np3 (noun)).

Предикат OF (x, y) описывает, например, словосочетание

kadinin elbisesi - платье женщины (платье, принадлежащее этой женщине),

так как

kadln - основа слова (женщина); т - аффикс родительного падежа; elbise - основа слова (платье); si - аффикс принадлежности.

Рассмотрим предложение Ben karde§in kitabini okuyorum. (Я брата книгу читаю. I am reading the brother's book.) Запишем это предложение при помощи предикатов:

READ (ben, OF (karde§in, kitabini)).

Соответствующая предикату связь OF позволяет особо выделять притяжательные местоимения в процессе парсинга. Ниже (рис. 6) приведен пример разбора предложения Менщ царным ашцаи жоц. (Я не голоден. I am not hungry.), содержащего притяжательное местоимение первого лица (за него отвечает связь OF1) и отрицательную форму глагола (за нее отвечает связь VN).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рис. 6. Притяжательное местоимение в казахском языке

Далее (рис. 7) показан пример разбора предложения с притяжательным местоимением на турецком языке Senin ne istedigini bilmiyorum. (Я не знаю, что ты хочешь. I don't know what you want.)

Рис. 7. Притяжательное местоимение в турецком языке

Интересными с точки зрения исследования являются семантические предикаты места и времени действия: LOC (verb, adverb); TIME (verb, adverb).

Предикат FOR (Ng (noun) | Pg (pronoun), postposition) описывает согласование послелога için, соответствующего русскому предлогу для, с существительным или местоимением в родительном падеже.

Заключение

Возрастающие объемы информации в Интернете и бурное развитие социальных сетей делает все более актуальной задачу автоматизированной обработки текстовой информации. Традиционно в процессе автоматической обработки текста выделяют этапы морфологического и синтаксического анализа. После них предполагается осуществлять семантический анализ. По нашему мнению, при обработке текста на агглютинативном языке неверно пытаться выделить семантический анализ в отдельный этап. Это напрямую связано с особенностями словообразования в языках такого строя. Уже на этапах морфологического и синтаксического анализа возникают семантические отношения. В данной статье рассмотрены все три уровня анализа. Семантические связи рассматриваются пока только внутри отдельно взятого предложения. В будущем планируется расширить их список для разметки текстов (последовательностей связанных предложений), чтобы можно было применять полученные результаты при создании систем определения тем текстов и систем автоматического резюмирования. Мы считаем, что даже частичная реализация семантической разметки могла бы повысить эффективность работы таких систем.

В качестве инструмента, позволяющего производить синтактико-семантический анализ предложений, нами был выбран Link Grammar Parser. В своей работе мы исследовали применение грамматики связей для казахского и турецкого языков и рассмотрели возможность создания и подключения словарей на этих языках к системе Link Grammar Parser. Точность работы Link Grammar Parser во многом зависит от полноты подключаемых словарей. В настоящее время словари содержат около 500 различных сочетаний аффиксов для глаголов турецкого языка и около 1 100 сочетаний в целом для существительных, прилагательных и глаголов казахского языка. Поскольку эти языки являются агглютинативными, при составлении словарей приходится учитывать их морфологические особенности.

В процессе исследования мы столкнулись с проблемами лингвистической неоднозначности: как описать однородность членов предложения, используя грамматику связей, как справиться с омонимией основ и аффиксов и т.д. Подобные проблемы еще предстоит решать. Но на данном этапе работы с Link Grammar Parser перед нами не стояла задача охватить все многообразие казахского и турецкого языков. Требовалось обнаружить закономерности для некоторого базового множества частей речи, описать основной набор связей.

В будущем планируется рассмотреть семантико-морфологические и семантико-син-таксические связи для таких категорий как числительные, причастия, союзы, расширить список предлогов и частиц, а также предстоит детально рассмотреть варианты связей для различных времен глаголов. В дальнейшем предполагается адаптировать систему Link Grammar Parser и составить соответствующие словари для некоторых других тюркских языков.

Список литературы

1. Лукашевич Н. В. Модели и методы автоматической обработки неструктурированной информации на основе базы данных онтологического типа: Диссертация на соискание ученой степени доктора технических наук. М., 2014. 312 с.

2. Агглютинативные языки // Википедия - свободная энциклопедия (2015). URL: https://ru.wikipedia.org/wiki/Агглютинативные_языки

3. Gülten Eryigit, Joakim Nivre, Kemal Oflazer. Dependency Parsing of Turkish // Computational Linguistics. 2008. Vol. 34. No. 3. Р. 357-389.

4. Kemal Oflazer. Two-level Description of Turkish Morphology // Literary and Linguistic Computing. 1994. Vol. 9. №. 2. Р. 137-148.

5. Tukeev U. Automaton models of the morphology analysis and the completeness of the endings of the Kazakh language // Proc. of International Conference «Turkic languages processing». 2015. Р. 91-100.

6. Жуманов Ж. М. Разработка грамматики связи для синтаксического анализа казахского языка // Вестн. КазНУ. Серия: Математика, механика, информатика. 2012. № 2 (73). С. 71-80.

7. Тукеев У. А, Жуманов Ж. М., Рахимова Д. Р. Моделирование семантических ситуаций времен казахского языка при машинном переводе // Вестн. КазНУ. Серия: Математика, механика, информатика. 2012. № 4 (75). С. 99-107.

8. Temperley D. An Introduction to the Link Grammar Parser. 2014. URL: http://www. abisource.com/projects/link-grammar/dict/introduction.html#1

9. Kessikbayeva G., Cicekli I. Rule Based Morphological Analyzer of Kazakh Language // Proc. of the 2014 Joint Meeting of SIGMORPHON and SIGFSM. 2014. Р. 46-54.

10. Ozlem istek. A Link Grammar for Turkish. Thesis. Ankara: Bilkent University, 2006. 135 p.

11. Куликовская Л. К, Мусаева Э. Н. Грамматика казахского языка в таблицах и схемах в сопоставлении с грамматикой русского языка. Алмата, 2006. 76 с.

12. Тукеев У. А., Рахимова Д. Р. Семантические связи в автоматической обработке текста казахского языка // Вестн. КазНТУ. Серия: Математика, механика, информатика. 2012. № 2. С.320-325.

Материал поступил в редколлегию 23.05.2016

A. M. Bakiyeva \ T. V. Batui ra 1 2, A. S. Yerimbetova 1 M. V. Mitkovskaya 1, N. A. Semenova 1

1 Novosibirsk State University 1 Pirogov Str., Novosibirsk, 630090, Russian Federation

2 A. P. Ershov Institute of Informatics Systems SB RAS 6 Academician Lavrentiev Str, Novosibirsk, 630090, Russian Federation

[email protected], tatiana.v.batura@gmail. com, aigerian @mail.ru [email protected], [email protected]

RESEARCH OF LINK GRAMMAR FOR KAZAKH AND TURKISH LANGUAGES

The purpose of this work is to study the applicability of the link grammar to the Kazakh and Turkish languages. Our choice of these languages is determined by increasing spread of the Islam culture and the fact that texts in these languages are widely represented on the Internet, but investigations of the syntax and semantics structure of the Kazakh and Turkish languages are slightly presented. Therefore text processing in these languages is a challenge. Link Grammar Parser was selected as a tool for parsing. We used the methods of first-order predicate calculus to compile plug-in dictionaries. The coherence of different levels of analysis by the example of Turkic languages was demonstrated. An approach that allows to take into account the semantic links during morphological and syntactic levels was proposed. A model of semantic markup of sentences was described in this paper. We are working to extend the dictionaries for the Link Grammar Parser. In the future we plan to expand the list of links for markup of a text (sequences of related sentences) to be able to use the results to create topic identification systems and automatic summarization systems.

Keywords: link grammar, morphological analyzer, syntactic parser, agglutinative language, semantic of utterances.

14

A. M. BaKHeBa h flp.

References

1. Lukashevich N.V. Modeli i metody avtomaticheskoj obrabotki nestrukturirovannoj informacii na osnove bazy dannyh ontologicheskogo tipa: Dissertaciya na soiskanie uchenoj stepeni doktora tekhnicheskih nauk. Moskva, 2014. 312 p.

2. Agglyutinativnye yazyki // Vikipediya - svobodnaya ehnciklopediya (2015), URL: https://ru.wikipedia.org/wiki/Agglyutinativnye_yazyki

3. Gulden Eryigit, Joakim Nivre, Kemal Oflazer (2008), Dependency Parsing of Turkish // Computational Linguistics, Vol. 34, N. 3. pp. 357-389.

4. Kemal Oflazer, Two-level Description of Turkish Morphology, Literary and Linguistic Computing, Vol. 9, N. 2, 1994. pp. 137-148.

5. Tukeev U. (2015), Automaton models of the morphology analysis and the completeness of the endings of the Kazakh language // Proc. of international conference "Turkic languages processing" (Turklang-2015), pp. 91-100.

6. Zhumanov ZH.M. (2012), Razrabotka grammatiki svyazi dlya sintaksicheskogo analiza kazahskogo yazyka // Vestnik KazNU. Seriya matematika, mekhanika, informatika. № 2 (73). pp. 71-80

7. Tukeev U.A. ZHumanov Zh.M., Rahimova D.R. (2012), Modelirovanie semanticheskih situacij vremen kazahskogo yazyka pri mashinnom perevode // Vestnik KazNU. Seriya matematika, mekhanika, informatika. № 4(75). p.p. 99-107.

8. Temperley D. (2014), An Introduction to the Link Grammar Parser, URL: http://www. abisource.com/projects/link-grammar/dict/introduction.html#1

9. Kessikbayeva G., Cicekli I. (2014), Rule Based Morphological Analyzer of Kazakh Language // Proc. of the 2014 Joint Meeting of SIGMORPHON and SIGFSM. pp. 46-54.

10. Ozlem istek. (2006), A Link Grammar for Turkish. Thesis. Bilkent University, Ankara, Turkey. 135 p.

11. Kulikovskaya L.K., Musaeva EH.N. (2006), Grammatika kazahskogo yazyka v tablicah i skhemah v sopostavlenii s grammatikoj russkogo yazyka. 76 p.

12. Tukeev U.A., Rahimova D.R. (2012), Semanticheskie svyazi v avtomaticheskoj obrabotke teksta kazahskogo yazyka // Vestnik KazNTU. Seriya matematika, mekhanika, informatika. N 2. pp.320-325.

i Надоели баннеры? Вы всегда можете отключить рекламу.