Научная статья на тему 'Математическое моделирование и алгоритм морфологического анализа кыргызского языка'

Математическое моделирование и алгоритм морфологического анализа кыргызского языка Текст научной статьи по специальности «Математика»

CC BY
160
38
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ФУНКЦИЯ / ЕСТЕСТВЕННЫЙ ЯЗЫК / СЛОВАРЬ / МОРФОЛОГИЯ / КЫРГЫЗСКИЙ ЯЗЫК / АЛГОРИТМ / СЛОВОФОРМА / FUNCTION / NATURAL LANGUAGE / DICTIONARY / MORPHOLOGY / KYRGYZ LANGUAGE / ALGORITHM / WORD FORM

Аннотация научной статьи по математике, автор научной работы — Сатыбаев Абдыганы Джунусович, Кочконбаева Буажар Осмоналиевна

Исследования морфологического анализа языка дает нам дальнейшую обработку языка, так как морфологический анализ считается первым шагом на пути решения любой задачи компьютерной обработки естественного языка. В статье рассматриваются вопросы создания математической модели кыргызского языка и алгоритмы морфологического анализатора.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Mathematical modeling and algorithm of morphological analysis of the Kyrgyz language

Studies of the morphological analysis of the language gives us further processing of the language, since morphological analysis is considered the first step towards solving any problem of computer processing of natural language. The article deals with the issues of creating a mathematical model of the Kyrgyz language and algorithms of a morphological analyzer.

Текст научной работы на тему «Математическое моделирование и алгоритм морфологического анализа кыргызского языка»

УДК 004.421: 81-114.2 https://doi.org/10.33619/2414-2948/40/28

МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ И АЛГОРИТМ МОРФОЛОГИЧЕСКОГО АНАЛИЗА КЫРГЫЗСКОГО ЯЗЫКА

©Сатыбаев А. Д., д-р физ.-мат. наук, Ошский технологический университет им. М. М. Адышева, г. Ош, Кыргызстан, abdu—satybaev@mail.ru ©Кочконбаева Б. О., Ошский технологический университет им. М. М. Адышева,

г. Ош, Кыргызстан, buajar@mail.ru

MATHEMATICAL MODELING AND ALGORITHM OF MORPHOLOGICAL ANALYSIS OF THE KYRGYZ LANGUAGE

©Satybaev A., Dr. habil, Osh Technological University named by M.M. Adyshev, Osh, Kyrgyzstan, abdu-satybaev@mail.ru ©Kochkonbaeva B., Osh Technological University named by M. M. Adyshev, Osh, Kyrgyzstan, buajar@mail.ru

Аннотация. Исследования морфологического анализа языка дает нам дальнейшую обработку языка, так как морфологический анализ считается первым шагом на пути решения любой задачи компьютерной обработки естественного языка. В статье рассматриваются вопросы создания математической модели кыргызского языка и алгоритмы морфологического анализатора.

Abstract. Studies of the morphological analysis of the language gives us further processing of the language, since morphological analysis is considered the first step towards solving any problem of computer processing of natural language. The article deals with the issues of creating a mathematical model of the Kyrgyz language and algorithms of a morphological analyzer.

Ключевые слова: функция, естественный язык, словарь, морфология, кыргызский язык, алгоритм, словоформа.

Keywords: function, natural language, dictionary, morphology, Kyrgyz language, algorithm, word form.

Введение

Морфологический анализ является начальной ступенью различных задач, связанных с естественным языком, и поэтому его точное выполнение имеет большое значение.

Методы морфологического анализа можно разделить на 3 типа:

- анализировать со словарем аффиксов;

- анализировать с помощью словаря аффиксов и основ;

- анализировать с помощью словаря системы слов.

В методе анализа с помощью словаря аффиксов рассматривается выделение аффиксов из слова и поиск по словарю, и на этой основе раскрыть грамматическое значение слова.

Математическое моделирование

Обозначим словоформу в любом агглютинативном языке строкой Sn — Х1Х2 шшшХ^, где Xi (i=1, 2,...,n) является членом соответствующего алфавита A, а n является количеством букв

(то есть длиной строки). В исследовании используем кыргызский алфавит, который состоит из 36 букв и знака подчеркивания _ для пустого символа следующим образом:

А={а,б,в,г,д,е,е,ж,з,и,й,к,л,м,н,ц,о,в,п,р,с,т,у^,ф,х,ц,ч,ш,щ,ъ,ы,ь,э,ю,я,э,'_'}

и мы ввели следующие обозначения Sn для обозначения подстрок любой строки 1 < i < j < п:

Sn[i'- j] = xixi+1 —Xj

S-ni'-j] = X1X2 — xj

^nt^'] XiXi + 1 ■■■xn

Исходя из наших обозначений, специальная подстрока Sn[i:i + 1] = xixi+1 обозначается упорядоченной парой букв (xi,x2)i, где субиндекс i (i=1,2,...,n-1), указывает начальную позицию упорядоченной пары в этой строке xi=xi, X2=Xi+i£Ä.

Для i=n упорядоченная пара формируется добавленным пробелом как (xn,'_')i=n. Таким образом, любая строка Sn = х1х2 — хп имеет n упорядоченную пару в нашем исследовании.

Для заданной упорядоченной пары букв (xi,x2)j которая может появляться в позиции 1 < j < птах в любой форме кыргызского слова (где nmax максимальная длина слова в кыргызском языке) и данная конкретная форма слова обозначается как Sn = Х1Х2 — Xft, где n>j, , обозначение (xi,X2)j £ Sn указывает, что существует упорядоченная пара (xi,x2)i в позиции i (1 < i < ri) в Sn при условии, что (x1,x2)i = (x1,x2)j для i=j. Наконец, мы определяем еще два символа, а именно gm=Sn[:m] и em=Sn[m:] чтобы представить любую словесную форму в виде упорядоченной пары из двух подстрок S™ = (дт, ет) для всех 1 < т <ri.

Предположим, что множество L будет набором всех возможных упорядоченных пар букв (xi,x2)i которое может появляться в любой кыргызской словесной форме для позиций i=i,...nmax. Тогда L будет пробным пространством и может быть определено следующим образом:

L = {(x1,X2)ilx1,X2 е A arid 1<i< rimax}

И далее предположим, что множества Gk , Ek и Tk, где Gk , Ek , Tk a L, i<k<nmax представляют события, определенные следующим образом:

Gk = {(x1,X2)ili = k arid (xi,x2)t е gm arid 1<m< rimax} Ek = i(xi,x2)ili = k arid (x1,x2)i е em arid 1 <m < rimax} Tk = {(x1,X2)ili = k, h±= sn[k:k], h.2 = sn[k + 1,k + 1], 1<i< rimax}

Таким образом, для каждой упорядоченной пары (x1,x2)i в позициях i=i,2,...,n любой заданной словоформы, обозначенной через Sn = х1х2 ■ .,хп можно определить вероятности нахождения в вышеуказанных три множества следующим образом:

Pr(sn[i: i + 1]eGi) = Pr((Xl,X2)i е Gi) = Pß((xi,x2)i) (1)

Pr(sn[i: i + 1]eEi)= Pr((xi,x2)i е Ei) = PE((xi,X2)i) (2)

Pr(sn[i: 1 + 1]еТ1) = Pr((xi,x2)i е TO = PT((xi,x2)i) (3)

Где, уравнение (1) относится к вероятности того, что упорядоченная пара (x1,x2)i находится в основной части заданной формы слова, аналогично уравнение (2) относится к вероятности того, что упорядоченная пара (x1,x2)i находится в аффиксной части данной

формы слова и, наконец, уравнение (3) относится к вероятности того, что упорядоченная пара (хх, х2) находится между частью основы и аффиксной частью данной формы слова (то есть, Х1 — последняя буква части стебля, а Х2 — первая буква части аффикса).

Ввиду того, что слова кыргызского языка состоят из корня и аффиксов, слово обозначим как S, тогда в качестве функции их определим так:

Д + > у, ^ (4)

Zm

Ui,(m< 8)

i=о

Здесь, S — линейная функция, R — основа слова, Um — словоизменительные аффиксы.

В соответствии с формулой (4) S зависит от корня, словообразовательных аффиксов, словоизменительных аффиксов.

Словоизменительные аффиксы могут достичь до восьми, иначе говоря

?1l0Ui = U0 + Ui + U2 + - + U8, (5)

Определение 1: Если Km=0, Um=0 , то S функция будет равна корню слова, и вводимое слово не разделится на морфемы.

Множество словоизменительных аффиксов

Словоизменительные аффиксы изменяют грамматическое значение слов, но не изменяют лексическое значение.

Группируя, морфологические категории во множества аффиксов получим следующий список:

J={-нын,- га, - ны,-да, -дан } множество падежных аффиксов (Noun Cases);

Т=(-ым,-ыц, -ыцыз, -сы, -ы, -быз, -цар, -цыздар} множество притяжательных аффиксов (Possessive);

К={-лар} множество аффиксов множественного числа (Pl);

Zh={ -мын, -быз, -сыц, -сыцар, -сыз, -сыздар} множество аффиксов лица (Personal);

Ch={-ды, -ган, -ыптыр, -чу,...} множество аффиксов времени (Verb Tenses);

In={-са, -гай, ...} множество аффиксов наклонения (Imperatives);

Neg={ба} множество аффиксов отрицательного значения (аспект negative категории Verb Tenses);

Q={6bi} множество аффиксов вопросительного значения (аспект interrogative категории Verb Tenses).

Если скажем, что Um — это множество словоизменительных аффиксов, то он состоит из следующих частей:

Um={J, T,K,Zh,Ch, In,Neg,Q}

Правила соединения аффиксов

Именительными словами называем имя существительное, имя числительное, имя прилагательное, местоимение.

Определение 2: Если Ue(ZvCvSanvAt), то как показано в (4) формуле U+Um, U+Um+Km сумма не выполняется, иначе говоря после словоизменительных аффиксов словообразовательные аффиксы не соединяются.

Также сохраняются и правила словоизменительных аффиксов:

Um =K+ T+J+ Zh+Q (6)

На основе формулы (6) Us(ZvCvSanvAt) для времени (4) формулу можно написать

так.

S=U+Km+ K+T+J+Zh+Q, (7)

В этой формуле некоторые элементы множества словоизменительных аффиксов могут быть равны свободным аффиксам. Например:

S= 'аталар', и= 'ата', Кт=0, ит=К= 'лар ';

S= 'аталарыбыз', и= 'ата', Кт=0, ит=К+Т= 'лар'+ 'ыбыз';

S= 'аталарыбыздын ', и= 'ата', Кт=0, Um=K+T+J= 'лар '+'ыбыз '+'дын';

S= 'аталарсыцар', и= 'ата', Кт=0, Um=K+T+Zh= 'лар'+ 'сыцар';

S= 'аталарыбызсыцар', и= 'ата', Кт=0, Um=K+T+J+Zh= 'лар '+'ыбыз'+ 'сыцар';

S= 'аталарыбызсыцарбы ', и= 'ата', Кт=0,

Um=K+T+J+Zh+Q= 'лар'+ 'ыбыз'+ 'сыцар '+'бы';

Все вышеназванное можно посмотреть в следующей Таблице.

Таблица.

Именные -ым (-м) -нын -мын

основы -ыц (-ц) -га -м

Например: -ы (-сы) -ны -быз

ата, казан, -лар -ыбыз -да -сыц

ЖYрoк и др. (-быз) -дан -сыцар

-ыцар -сыз

(-цар) -сыздар

(-лары) -ыцыз

-ныкы -ыцыздар

-(а)т

(-ыш -а -т)

-бы -чы

1

2

3

4

5

6

7

Алгоритм морфологического анализа Соответствующий алгоритм представлен на Рисунке.

Начало

Входные данные. Текст на естественном _уровне_

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рисунок. Алгоритм морфологического анализатора.

Заключение

Таким образом, первым шагом всех прикладных программ связанных с обработкой естественного языка является морфологический анализатор. Поэтому создание математической модели анализа является актуальной задачей. Вышеизложенной статье мы рассматривали модель стемминга и на основе этого алгоритм морфологического анализа текста. В дальнейшем мы будем использовать эти алгоритмы для создания машинного перевода.

Список литературы:

1. Садыков Т. Проблемы моделирования тюркской морфологии. Фрунзе: Илим, 1987.

103 с.

2. Панков П. С. Обучающая и контролирующая программа по словоизменению в кыргызском языке на ПЭВМ. Бишкек: Мектеп, 1992. 20 с.

3. Кочконбаева Б. О. О морфологическом анализе в приложениях автоматической обработки текста // Бюллетень науки и практики. 2018. Т. 4. №12. С. 608-612.

References:

1. Sadykov, T. (1987). Problemy modelirovaniya tyurkskoi morfologii. Frunze, Ilim, 103. (in Russian).

2. Pankov, P. S. (1992). Obuchayushchaya i kontroliruyushchaya programma po slovoizmeneniyu v kyrgyzskom yazyke na PEVM. Bishkek, Mektep, 20. (in Russian).

3. Kochkonbaeva, B. (2018). About morphological analysis in natural language processing applications. Bulletin of Science and Practice, 4(12), 608-612. (in Russian).

Работа поступила Принята к публикации

в редакцию 11.02.2019 г. 16.02.2019 г.

Ссылка для цитирования:

Сатыбаев А. Д., Кочконбаева Б. О. Математическое моделирование и алгоритм морфологического анализа кыргызского языка // Бюллетень науки и практики. 2019. Т. 5. №3. С. 220-224. https://doi.org/10.33619/2414-2948/40/28.

Cite as (APA):

Satybaev, A., & Kochkonbaeva B. (2019). Mathematical modeling and algorithm of morphological analysis of the Kyrgyz language. Bulletin of Science and Practice, 5(3), 220-224. https://doi.org/10.33619/2414-2948/40/28. (in Russian).

i Надоели баннеры? Вы всегда можете отключить рекламу.