Научная статья на тему 'МАТЕМАТИЧЕСКАЯ МОДЕЛЬ ЕСТЕСТВЕННОГО ЯЗЫКА ДЛЯ МОРФЕМНОГО АНАЛИЗА С ИСПОЛЬЗОВАНИЕМ СТАТИСТИЧЕСКИХ ДАННЫХ'

МАТЕМАТИЧЕСКАЯ МОДЕЛЬ ЕСТЕСТВЕННОГО ЯЗЫКА ДЛЯ МОРФЕМНОГО АНАЛИЗА С ИСПОЛЬЗОВАНИЕМ СТАТИСТИЧЕСКИХ ДАННЫХ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
28
5
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МОРФЕМНЫЙ АНАЛИЗ / СЛОВОФОРМА / МОРФ / ОПТИМИЗАЦИЯ / МАТЕМАТИЧЕСКАЯ МОДЕЛЬ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Фадеев С.Г.

В статье предложена математическая модель для морфемного анализа словоформ естественного языка. Модель основана на матрицах вероятностей. Предложенная модель позволяет оптимизировать морфемный анализ на основе предварительно полученных статистических данных. Рассмотрены достоинства и недостатки предложенной модели.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

MATHEMATICAL MODEL OF NATURAL LANGUAGE FOR MORPHEMIC ANALYSIS WITH USE OF STATISTICAL DATA

The article proposes a mathematical model for morphemic analysis of word forms of natural language. The model is based on probability matrices. The proposed model allows to optimize the morphemic analysis on the basis of previously obtained statistical data. The advantages and disadvantages of the proposed model are considered.

Текст научной работы на тему «МАТЕМАТИЧЕСКАЯ МОДЕЛЬ ЕСТЕСТВЕННОГО ЯЗЫКА ДЛЯ МОРФЕМНОГО АНАЛИЗА С ИСПОЛЬЗОВАНИЕМ СТАТИСТИЧЕСКИХ ДАННЫХ»

гражданские. СПб., 1857.

5. Свод законов Российской империи. Том одиннадцатый. Часть II. Уставы кредитный, торговый, о промышленности фабричной и заводской, и устав ремесленных. СПб., 1857.

6. Шершеневич Г.Ф. Курс торгового права. Ч. II. СПб., 1908.

7. Шретер В. Недобросовестная конкуренция. СПб., 1914.

8. Cornell University's Legal Information Institute // Cornell University Law School. URL: https://www.law.cornell.edu/uscode/text (дата обращения: 8.04.2017).

УДК 004.912

Фадеев С.Г. старший преподаватель кафедра компьютерных технологий Чувашский государственный университет им. И.Н. Ульянова

Россия, г. Чебоксары МАТЕМАТИЧЕСКАЯ МОДЕЛЬ ЕСТЕСТВЕННОГО ЯЗЫКА ДЛЯ МОРФЕМНОГО АНАЛИЗА С ИСПОЛЬЗОВАНИЕМ СТАТИСТИЧЕСКИХ ДАННЫХ

Аннотация:

В статье предложена математическая модель для морфемного анализа словоформ естественного языка. Модель основана на матрицах вероятностей. Предложенная модель позволяет оптимизировать морфемный анализ на основе предварительно полученных статистических данных. Рассмотрены достоинства и недостатки предложенной модели.

Ключевые слова: морфемный анализ, словоформа, морф, оптимизация, математическая модель

Fadeev S. G.

senior lecturer of the Department of computer technologies Chuvash State University named after I.N. Ulyanov

Russia, Cheboksary MATHEMATICAL MODEL OF NATURAL LANGUAGE FOR MORPHEMIC ANALYSIS WITH USE OF STATISTICAL DATA Annotation:

The article proposes a mathematical model for morphemic analysis of word forms of natural language. The model is based on probability matrices. The proposed model allows to optimize the morphemic analysis on the basis of previously obtained statistical data. The advantages and disadvantages of the proposed model are considered.

Keywords: morphemic analysis, word form, morph, optimization, mathematical model

Одним из этапов программного анализа текста на естественном языке является морфемный анализ - разбиение словоформ на морфы, т.е. на минимальные значимые единицы текста, несущие морфологическую информацию. Различают 2 типа морфов - корни и аффиксы. Корни являются носителями лексических значений слов, аффиксы служат для грамматических и словообразовательных целей.

Если естественный язык имеет сравнительно небольшое число аффиксов, которые при этом не образуют длинные последовательности, то задача программного разбора на морфы может быть решена «в лоб» - путем составления соответствующего словаря для всех встречающихся в языке словоформ. Но такой подход нельзя признать универсальным, т.к. он удобен лишь для флективных языков, в которых количество аффиксов в словоформе сравнительно невелико. Для агглютинативных языков такой подход неприменим, т.к. в них число аффиксов может быть большим (несколько сотен), а количество их возможных комбинаций - огромным. Составить словарь всех возможных словоформ в таких случаях представляется нецелесообразным - проще выполнить морфемный разбор «на месте».

Сложность автоматизации задачи морфемного анализа состоит в том, что заранее неизвестно, где заканчивается один морф и начинается другой. Кроме того, в естественных языках присутствует омонимия, когда одна и та же грамматическая форма может иметь несколько вариантов разбора. Вследствие этого морфемный разбор даже небольшого текста может потребовать значительных вычислительных ресурсов, что затрудняет его применение, например, в мобильных приложениях, где вычислительная мощность существенно ограничена [1].

Морфемный разбор можно оптимизировать, если учитывать особенности естественных языков. Например, словоформу можно разбить на три относительно независимые группы морфов - префиксную группу, группу корней и постфиксную группу, которые можно разбирать отдельно [2]. Каждая из групп имеет свой состав морфов.

Обозначим через А={а1, а2, ..., аК} множество морфов префиксной группы, Б={Ь1, Ь2, ..., ЬМ} - множество морфов группы корней и С={с1, с2, ..., сК} - множество морфов постфиксной группы. К, М и К -соответственно количество морфов (мощность множества) префиксной группы, группы корней и постфиксной группы для заданного естественного языка.

Опираясь на решение, описанное в статье [2], можно предложить математическую модель естественного языка, предназначенную для морфемного разбора и состоящую из 6 матриц:

3 матрицы - это вектор-столбцы размерностью N^1, М*1, К*1, полученные из соответствующих множеств А, Б, С;

3 матрицы размерностью №п, М*т, К*к, где п, т, к - максимальное число шагов при анализе префиксной группы, группы корней и постфиксной группы соответственно.

Величины п, m и k определяются морфологическими характеристиками конкретного естественного языка.

Префиксная группа:

Вектор-столбец морфов префиксной группы -а1 а2 -аМ-

Матрица вероятностей для разбора префиксной группы ■Р1(а1) Р2(а{) - Рп(а!) ' Р^) Рг(а2) - Рп(а2) ЖаЮ Рг(аи) - Рп(ам).

где щ -

i-ый морф множества префиксной группы A; Р}(ад - вероятность встречи щ на]-ом шаге.

Вектор-столбец морфов группы корней \Ь11 Ь2 Ьм

Матрица вероятностей для разбора группы корней \РМ Р2(ЬХ) - Рт(Ъ1) 1 Р1(Ь2) Р2(Ь2) - Рт(Ь2) А(ЬМ) Р2(ЬМ) - Рт(Ьм).

где

ЬI - г-ый морф множества группы корней B; Р](Ъ{) - вероятность встречи Ь^ на]-ом шаге.

Вектор-столбец морфов постфиксной группы -С1- С2 ¿к.

Матрица вероятностей для разбора постфиксной группы \Р1(С1) Р2Ы - Рк(С1) 1 Р1(С2) Р2(С2) - Рк(С2) А(СК) Р2(СК) - Рк(Ск)_

где

С1 - г-ый морф множества группы корней ^

Р](с{) - вероятность встречи С1 на]-ом шаге.

Задав указанные матрицы, мы определим параметры статистической модели естественного языка, предназначенную для выполнения и оптимизации морфемного разбора. Каждый естественный язык будет описываться своей шестеркой матриц.

Рассмотрим достоинства и недостатки предложенной модели.

Достоинства:

1. Универсальность - подходит для всех типов естественных языков, включая агглютинативные.

2. В программном обеспечении, основанном на предложенной

модели, данные будут отделены от алгоритма разбора - достаточно будет подключить другие матрицы и модель сможет работать с другим языком. Это позволит создавать универсальные программы морфемного разбора, способные работать с любыми языками. Кроме того, это дает возможность удаленно обновлять программное обеспечение морфемного разбора, заменяя только данные - без переустановки самой программы.

3. Для каждого языка можно иметь несколько матриц вероятностей. Например, одни матрицы будут использоваться для официально-делового стиля, другие - для разговорного стиля, третьи - для художественного и т.д.

4. Модель хорошо ложится на реляционную модель данных -наиболее распространенную и отработанную в настоящее время.

Недостатки:

1. Т.к. модель основана на статистических данных, то требуется ее предварительная настройка путем обработки большого количества текстов с привлечением квалифицированных специалистов. Качество полученных данных будет сильно зависеть от репрезентативности обрабатываемых текстов.

2. Модель предназначена для целей анализа, но не синтеза.

3. Затруднено расширение за счет включения в множества морфов дополнительных элементов, являющихся комбинациями 2-х и более морфов. Это потребует перенастроить модель путем повторной обработки большого количества текстов.

Для использования предложенной модели в реальных задачах потребуется программное обеспечение двух видов:

1. Программное обеспечение для сбора статистики по естественному языку, под который создается морфемный анализатор. Фактически это тот же самый морфемный анализатор, только он будет не использовать матрицы вероятностей, а заполнять их.

2. Программное обеспечение, использующее полученные матрицы вероятностей для морфемного анализа текста на естественном языке.

Следующим шагом развития предложенной модели видится в дополнении матриц вероятностей дополнительными строками, представляющими не отдельные морфы, а комбинации из 2-х и более морфов. Это позволит еще больше ускорить морфемный разбор.

Использованные источники:

1. Мытников А.Н., Мытникова Е.А., Кузнецова Л.Н., Солин С.Ю. Технологии разработки мобильных приложений // Теория и практика современной науки. - 2016. - № 4(10). - С. 504-507.

2. Fadeev S.G., Zheltov P.V. Optimization options of word forms morphemic analysis on the basis of statistical knowledge // Russian Linguistic Bulletin. -2016. - № 3 (7). - с. 15. DOI: 10.18454/RULB.7.33.

i Надоели баннеры? Вы всегда можете отключить рекламу.