Научная статья на тему 'ОПТИМИЗАЦИЯ МАТЕМАТИЧЕСКОЙ МОДЕЛИ ЕСТЕСТВЕННОГО ЯЗЫКА ДЛЯ МОРФЕМНОГО АНАЛИЗА'

ОПТИМИЗАЦИЯ МАТЕМАТИЧЕСКОЙ МОДЕЛИ ЕСТЕСТВЕННОГО ЯЗЫКА ДЛЯ МОРФЕМНОГО АНАЛИЗА Текст научной статьи по специальности «Математика»

CC BY
14
2
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
Ключевые слова
МОРФЕМНЫЙ АНАЛИЗ / СЛОВОФОРМА / МОРФ / МАТЕМАТИЧЕСКАЯ МОДЕЛЬ / ОПТИМИЗАЦИЯ / MORPHEMIC ANALYSIS / WORD FORM / MORPH / MATHEMATICAL MODEL / OPTIMIZATION

Аннотация научной статьи по математике, автор научной работы — Фадеев С.Г.

В статье рассматривается оптимизация ранее предложенной расширенной математической модели для морфемного анализа словоформ естественного языка, создаваемой на основе статистических данных. Оптимизация опирается на то, что вероятность встречи морфа или комбинации морфов в естественном языке может зависеть от места этого морфа в соответствующей морфемной группе. Оптимизация позволяет уменьшить количество элементов в матрицах вероятностей за счет разбиения матриц и последующего исключения из них нулевых строк. Рассмотрены достоинства и недостатки предложенной оптимизации.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

OPTIMIZATION OF THE MATHEMATICAL MODEL OF NATURAL LANGUAGE FOR MORPHEMIC ANALYSIS

The article considers the optimization of the previously proposed extended mathematical model for the morphemic analysis of word forms of natural language, created on the basis of statistical data. Optimization is based on the fact that the probability of encountering a morph or a combination of morphs in a natural language may depend on the location of this morph in the corresponding morpheme group. Optimization makes it possible to reduce the number of elements in probability matrices by splitting the matrices and then eliminating the zero rows from them. The advantages and disadvantages of the proposed optimization are considered.

Текст научной работы на тему «ОПТИМИЗАЦИЯ МАТЕМАТИЧЕСКОЙ МОДЕЛИ ЕСТЕСТВЕННОГО ЯЗЫКА ДЛЯ МОРФЕМНОГО АНАЛИЗА»

9. Гидденс Энтони. Социология. М.: Эдиториал УРСС, 1999. 704 с.

10. Грановская Р.М., Никольская И.М. Защита личности: Психологические механизмы. СПб.: «Знание», 1998.

11. Гришина Н.В. Психологическая работа с конфликтами: три вида диалога // Психологические проблемы самореализации личности / Под ред. Л.А. Головей, Л.А. Коростылевой. Вып.3. СПб., 1999. С.61- 75.

12. Гришина Н.В. Психология конфликта. СПб.: Питер, 2007. 464 с.

13. Громов Д.В. «Мужское» в традиционном и современном обществе // Живая старина. 2003. №4. С.56- 57.

УДК 004.912

Фадеев С.Г. старший преподаватель кафедра компьютерных технологий Чувашский государственный университет им. И.Н. Ульянова

Россия, г. Чебоксары ОПТИМИЗАЦИЯ МАТЕМАТИЧЕСКОЙ МОДЕЛИ ЕСТЕСТВЕННОГО ЯЗЫКА ДЛЯ МОРФЕМНОГО АНАЛИЗА Аннотация:

В статье рассматривается оптимизация ранее предложенной расширенной математической модели для морфемного анализа словоформ естественного языка, создаваемой на основе статистических данных. Оптимизация опирается на то, что вероятность встречи морфа или комбинации морфов в естественном языке может зависеть от места этого морфа в соответствующей морфемной группе. Оптимизация позволяет уменьшить количество элементов в матрицах вероятностей за счет разбиения матриц и последующего исключения из них нулевых строк. Рассмотрены достоинства и недостатки предложенной оптимизации.

Ключевые слова: морфемный анализ, словоформа, морф, математическая модель, оптимизация.

Fadeev S. G.

senior lecturer of the Department of computer technologies Chuvash State University named after I.N. Ulyanov

Russia, Cheboksary OPTIMIZATION OF THE MATHEMATICAL MODEL OF NATURAL LANGUAGE FOR MORPHEMIC ANALYSIS Annotation:

The article considers the optimization of the previously proposed extended mathematical model for the morphemic analysis of word forms of natural language, created on the basis of statistical data. Optimization is based on the fact that the probability of encountering a morph or a combination of morphs in a natural language may depend on the location of this morph in the corresponding morpheme group. Optimization makes it possible to reduce the number of

elements in probability matrices by splitting the matrices and then eliminating the zero rows from them. The advantages and disadvantages of the proposed optimization are considered.

Keywords: morphemic analysis, word form, morph, mathematical model, optimization

В статье [2] предложена расширенная математическая модель естественного языка для морфемного разбора на основе статистических данных. Данную модель можно оптимизировать за счет уменьшения размерностей используемых матриц и тем самым ускорить морфемный разбор словоформ.

Расширенная модель делит словоформу на 3 морфемных группы: префиксную, постфиксную и группу корней [3]. Каждая из групп представлена в модели 2-мя матрицами:

• вектор-столбец морфемной группы Мех1:

|Л1

ь2

Ьм Рх Р2

матрица вероятностей для разбора морфемной группы Рехг:

Pi(b1)P2(b1) P1(b2)P2(b2)

Pi(bM)P2(bM)

Pl(Pl) P2(Pl) PliPz)P2(P2)

Pk(bi) Pk(b2)

Pk(bM) Pk(pl) РЖ)

■Pl(PR)P2(PR)-Pk(PR)

где

ЬI - г-ый морф морфемной группы;

^ - i-ая комбинация морфов морфемной группы;

М - количество морфов в морфемной группе;

Я - количество комбинаций морфов в морфемной группе;

Р](х) - вероятность встречи х нау-ом шаге;

к - максимальное число шагов при анализе данной морфемной группы.

В естественных языках морфы внутри своих группы встречаются неравномерно: некоторые морфы могут не встречаться, например, в начале или конце групп. Следовательно, нет смысла проводить проверки на их наличие в начале или конце группы соответственно. Исключая часть морфов

и их комбинаций из проверок на определенных шагах, можно добиться ускорения морфемного анализа.

Рассмотрим пример морфемной группы для упрощенного естественного языка. Допустим, что в ней всего 3 морфа, 2 комбинации морфов и максимальное число шагов равно 4. Матрица вероятностей Рех1 в этом случае будет иметь следующий вид:

-РЖ) ^(М Р3(ьг) Р1(Ь2) Р2(Ь2) Р3Ф2)

РЖ) РЖ) РЖ) РЖ) РЖ)

Р2(Ь3)

Р2(Ь5) Р2(Рг) Р2Ш

Рз(Ь3) Рз(Ь4) Рз(Ь5)

Рз(01)

РзШ

РМ

Р4 (р2~) РА(РЗ) Ра(Ьа) РЖ)

РЖ) РЖ)

РЖ) Р2Ш Рз(Рз) РЖ)

где

Ь1 — Ь5 - морфы;

Р1 — р3 - комбинации морфов;

Р](х) - вероятность встречи х нау-ом шаге.

Предположим, что морфы Ь4, Ь5 и комбинация морфов р3 не встречаются в начале морфемной группы (1 и 2 шаги разбора), а морфы Ьх, Ь2 и комбинация морфов р1 - в конце морфемной группы (3 и 4 шаги разбора). Следовательно, соответствующие им вероятности Р1(Ь4), Р2(Ь4), РЖ), Р2(Ь5), РЖ), Р2Ш, Р3&1), РЖ), Рз(Ь2), РЖ), Рз(Ю, РЖ)

будут равны нулю и матрица вероятностей будет иметь следующий вид:

о о -00 Рз(Ьз) РЖ) Рз(Ь4) РЖ) Рз(Ь5) Р4(Ь5)

о о

РЖ) Р2Ш рз(^2) Р4(Р2)

о 0 Рз(Рз) Р4(3з)] Данную матрицу можно разбить на 2 матрицы - для 1-2 шагов и 3-4 шагов разбора:

• матрица вероятностей Р12 для 1-2 шагов разбора морфемной группы:

РЖ) РЖ) РЖ) о о

РЖ)

Р2(Ь2) Р2(Ьз)

о о

Р2(01)

ГР1(Ь1) ^(М] РЖ) Р2Ф2) РЖ) Р2(Ь3) 0 0 0 0 РЖ) Р2(Рх) РМ Р2($2) - 0 0

• матрица вероятностей Рз4 для 3-4 шагов разбора морфемной группы:

00 0 0 Рз(Ь3) Р4(Ь3) Рз(Ь4) Р4(Ь4) Рз(Ь5) Р4(Ь5) 0 0 Рз(Ъ) Р4(Р2) \-РзШ Р4Ш]

Можно заметить, что в каждую из этих матриц вошли строки из нулей. Это означает, что соответствующим им морфы и комбинации морфов не встречаются на данных шагах разбора. Следовательно, нет смысла хранить информацию о них - соответствующие им строки можно удалить из матриц вероятностей.

После удаления строк матрицы вероятностей примут следующий вид:

• матрица вероятностей Р12:

ГРМ ^(М]

РЖ) Р2Ф2)

РЖ) Р2(Ьз)

РЖ) Р2(Ю

-РЖ) Р2(02)1

• матрица вероятностей Р34:

гРз(Ьз) Р4(Ьз)л Р3&4) Р4&4) Рз(Ь5) Р4(Ь5)

РзШ Р4Ш

\-РзШ Р4Ш]

В результате проделанной оптимизации вместо одной матрицы вероятностей Рех1 из 32 элементов получены 2 матрицы Р12 и Рз4 с общим количеством элементов, равным 20. Таким образом для данного примера удалось сократить количество элементов более чем в 1.5 раза. Кроме того, будет ускорена и проверка на каждом шаге, т.к. вместо 8-ми проверок (по одной на каждую строку матрицы вероятностей) потребуется выполнять лишь 5 проверок.

Таким образом каждая морфемная группа теперь будет иметь не 2, а 2*п матриц. Но общее количество элементов в матрицах вероятностей будет меньше и количество шагов при разборе морфемной группы тоже уменьшится.

В естественном языке величина оптимизации будет зависеть от того, насколько сильно зависят вероятности появления морфов от их места в морфемной группе. Предполагается, что наибольший выигрыш данная оптимизация принесет для агглютинативных языков, в которых может содержаться много аффиксов в одном слове.

Рассмотрим достоинства и недостатки оптимизированной математической модели в сравнении с ранее предложенной [2].

Достоинства:

1. Позволяет ускорить морфемный разбор за счет исключения проверки тех морфов и их комбинаций, которые не встречаются на данном шаге разбора.

2. Сокращает расходы вычислительных ресурсов (оперативная память и время работы процессоров) для проведения морфемного анализа с помощью вычислительной техники. Особенно это актуально для мобильных приложений, где вычислительная мощность существенно ограничена [1].

Недостатки:

3. Настройка модели усложняется из-за необходимости не только строить матрицы вероятностей, но и выбирать оптимальное разбиение этих матриц для разных шагов разбора.

4. Усложняется сопровождение модели из-за увеличения в ней количества матриц и возможных изменений границ разбиения матрицы вероятностей Рех1 на отдельные матрицы.

5. При недостаточно накопленной статистике (статистический анализ проводился на ограниченном наборе текстов) может оказаться, что вероятности некоторых морфов на некоторых шагах разбора окажутся равными нулю, хотя на самом деле они отличны от нуля. Это может привести к тому, что после разбиения соответствующие им строки из матриц вероятностей будут исключены. В результате морфемный разбор по этим матрицам может не дать успешного результата. Данная проблема решаема, если в подобных случаях в качестве аварийного варианта продолжить разбор по полному набору морфов данной морфемной группы.

Использованные источники:

1. Мытников А.Н., Мытникова Е.А., Кузнецова Л.Н., Солин С.Ю. Технологии разработки мобильных приложений // Теория и практика современной науки. - 2016. - № 4(10). - С. 504-507.

2. Фадеев С.Г. Расширение математической модели естественного языка для морфемного анализа // Состояние и перспективы развития ИТ-образования: Сборник докладов и научных статей Всероссийской научно-практической конференции (посвящается 50-летию Чувашского государственного университета им. И.Н. Ульянова). (г. Чебоксары, 16-18 ноября 2017 г). 2018.

- С. 272-277.

3. Fadeev S.G., Zheltov P.V. Optimization options of word forms morphemic analysis on the basis of statistical knowledge // Russian Linguistic Bulletin. -2016. - № 3 (7). - с. 15. DOI: 10.18454/RULB.7.33.

УДК 338.01.36

Фазилова Л. студент магистрант 1 курса Санталова М. С. старший преподаватель Национальный Исследовательский Университет «МЭИ»

Россия, г. Москва

СРАВНЕНИЕ ОСОБЕННОСТЕЙ ФИНАНСОВОЙ ОТЧЕТНОСТИ ПО

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

СТАНДАРТАМ МСФО И РСБУ

Аннотация: Статья посвящена анализу особенностей финансовой отчетности по российской системе бухгалтерского учета и международным стандартом. Сравнение проводилось по терминологии, структуре и принципам финансовой отчетности.

Ключевые слова: РСБУ, МСФО, финансовая отчетность.

Fazilova L. student 1 course of magistracy

MPEI Russia, Moscow Santalova M.S. Senior Lecturer MPEI Russia, Moscow

COMPARISON OF FINANCIAL STATEMENTS SPECIFICS ACCORDING TO IFRS AND RAS

Annotation: The article is devoted to the analysis of the specifics of financial reporting on the Russian accounting system and the international standard. The comparison was made in terminology, structure and principles of financial reporting.

Key words: RAS, IFRS, financial statements.

Международные стандарты финансовой отчетности (МСФО) на сегодняшний момент играют большую роль в экономике России. Их используют при составлении финансовых отчетов компаний во всем мире. Для одних групп предприятий и организаций они носят обязательный характер, например, для предприятий, проводящих аудит своей деятельности в аудиторских компаниях, которые входят в «Большую четверку», в соответствиями с требованиями учредителей и инвесторов, для других в силу того или иного закона. В качестве ориентира были выбраны

i Надоели баннеры? Вы всегда можете отключить рекламу.