УДК 004.855.5
Д. А. Огурцов
Московский физико-технический институт (национальный исследовательский университет)
Классификация определений в математических LaTeX
статьях
Рассмотрено построение классификатора «определений» в математических научных статьях формата LaTeX на основе различных векторных представлений для задачи распознавания «областей интереса» и задачи MIR. Составлен корпус документов, содержащих определения. Исследованы визуальные отображения векторных представлений для данной задачи, а также качество работы классификаторов на них.
Ключевые слова: обработка естественного языка, LaTeX, математические тексты, векторные представления
D. A. Ogurtsov
Moscow Institute of Physics and Technology
Classification of definitions in mathematical LaTeX articles
The paper discusses the construction of a classifier of «definitions» in mathematical scientific articles LaTeX format based on various vector representations for the problem of recognizing «areas of interest» and the MIR problem. A corpus of documents containing definitions has been compiled. Visual displays of embeddings for this task, as well as the quality of classifiers work, have been studied.
Key words: NLP, LaTeX, mathematical texts, embeddings
1. Введение
Математический текст представляет собой сильно структурированный язык, где взаимодействие между словами и символами не похоже ни на что из любого другого вида языка, естественного или искусственного, так как является более сложным. Также язык обладает сравнительно небольшим набором лексем, используемых повсеместно, особенно это касается символов, поскольку именно эти единицы текста часто используются в произвольном контексте. Так, например, «X» может означать: независимую переменную, координату на оси абсцисс и так далее. Поведение, взаимодействие и свойства такого символа могут сильно отличаться, в зависимости от природы объекта. То же самое относится и к словам. Рассмотрим это на примере слова «группа»: в зависимости от контекста оно может обозначать как «совокупность чего-либо», так и конкретный термин, относящийся к теории групп. Анализ математических текстов интересен тем, что позволяет выделять представляющие интерес участки в математическом тексте, например: брать математические предложения, определять их синтаксическую структуру и извлекать лежащее в их основе значение в соответствующей логике [1].
Математические статьи и документы чаще всего редактируются с помощью формата ЬаТеХ [2], который является общепринятым стандартом для технической литературы и научных текстов. На текущий момент рассмотрена общая применимость, качество работы, а также сложности и подходы при применении методов машинного обучения для анализа
© Огурцов Д. А., 2024
(с) Федеральное государственное автономное образовательное учреждение высшего образования
«Московский физико-технический институт (национальный исследовательский университет)», 2024
еетеетвенншх) языка при обработке математических текстов формата LaTeX на примерах некоторых задач: составления глоссария терминов, машинншх) перевода [3,4]. Также интерес к изучению различных структур математическшх) языка проявляется в исследовании и построении моделей машинншх) обучения в данном домене для задач: извлечения нар идентификатор-определение, извлечения формул, извлечения релевантных утверждений для доказательства из еетеетвенншх) языка, задаче MWPfô 7], неформальному доказательству теорем [8].
В прошлом были попытки построения классификатора определений для LaTeX статей, но данный анализ не давал качественной оценки данному подходу, а также не являлся исчерпывающим из-за использования шраниченншх) набора инструментов для анализа [9]. В данной работе приведен анализ для математических LaTeX текстов и рассмотрена задача построения модели, которая классифицирует предложения на «определение» и «не определение», основанной на методах машинншх) обучения, для LaTeX документов со служебными словами. Данный анализ и предложенные модели могут быть полезны для улучшения информационно!^ поиска в наукометрических базах, а также для задачи извлечения пар идентификатор-определение, как решение более абстрактной задачи, позволяющей рассматривать «области интереса» в корпусе документов, а не документы целиком, и в задаче MIR (Math Information Rctricval) для текстов на естественном языке [8, 10, 11], что может быть, в свою очередь, использовано для разработки приложения, направленншх) на удобство пользователей при работе с такими документами. На рис. 1 представлен наглядный пример работы такшх) приложения для отображения возможностей работы с «областями интереса» в математических документах.
Select highlight type:
_Ail Q Définition |_ Identifier Ц] Text Définition
A random variable X h; a measurable function X : IÏ-»E from a sample space Cl as a set of possible outcomes to a measurable space E. The technical axiomatic définition requires the sample space iï to be a sample space of a probability triple (iî, F, P).
The probability that X takes on a value in a measurable set S E E is written as:
P(XiES) = P({<oeiî|XO)eS})
Is example of fi Where
Q is sample space (Link) Q is set of possible outcomes (Link)
Properties:
The outcomes must be mutually exclusive (Link)
(from Wikipedia)
Рис. 1. Пример выделения «областей интереса» в математических текстах
2. Методы
В применении к данной задаче были рассмотрены следующие модели для проведения анализа:
1. BOW [121.
2. TF-IDF [13, 141.
3. USE [151.
4. BERT [161.
5. MathBERT [171-
6. t-SNE [18].
Для построения векторных представлений использовались модели 1-5, модель 6 для их визуализации. Данные методы предлагают различные подходы и решения к задаче анализа и обработки текста: основанные на статистике 1-2 и нейронных сетях 3-5. Все представленные модели имеют между собой ключевые отличия, в репрезентации текста или в обучающем наборе данных, как в случае с 4 и 5.
Ниже рассмотрены наиболее важные для анализа модели.
2.1. Universal Sentence Encoder
Универсальный кодировщик предложений — модель для получения векторных представлений предложений, использующая идею переноса знаний для кодировщиков векторного представления (путем обучения на разнообразных задачах). Данная модель опирается на два подхода к кодированию векторов предложений (документов): архитектуру кодировщика трансформера [19] и DAN [20].
2.2. BERT
Модель, используемая для различных классов задач в обработке естественного языка, изначально обученная на задачу маскирования текста и показывающая высокие результаты во многих задачах обработки естественного языка. Данная архитектура, развивая идею кодировщика трансформера, позволяет механизму внимания [19] брать контекст как из левой, так и из правой части (в обе стороны), что позволяет улучшить результаты векторизации [16]. Не используя часть декодировщика, данная модель умеет улавливать общую семантику языка и переводить их в векторное представление, благодаря чему существует большое количество предобученных моделей данной архитектуры, натренированных на различных текстовых корпусах для разных языков и различных задач (извлечения имено-ваных сущностей, анализ тональностей и др.).
2.3. MathBERT
MathBERT — модель архитектуры BERT, натренированная на корпусе математических формул, охватывающих часть их контекста (не менее 400 символов), в том числе и LaTeX документов. MathBERT достигает высоких результатов в задаче информационного поиска для математических формул и текста [17, 21].
2.4. t-SNE
t-SNE — статистический нелинейный метод визуализации данных большой размерности в пространстве низкой размерности (двух или трехмерном), таким образом, что близкие объекты представляются близко расположенными точками, а различные объекты, с большой вероятностью, представляются точками, далеко расположенными друг от друга [18]. Данный метод активно используется для снижения размерности и представления данных в обработке естественного языка [22].
3. Результаты
3.1. Подготовка данных
Для подготовки к анализу статей, написанных с помощью пакета LaTeX, была произведена разметка 40 статей с сайта arxiv.org по тематике «комбинаторика». В качестве инструмента разметки был выбран Brat [23]. Основными выделяемыми сущностями являлись «определения» и «определяемое понятие» вместе с «идентификатором», используемые для валидации разметки «определений».
Примеры разметки:
1. Определение: Given a positive integer п £ Z+, те use Sn to denote the symmetric group on the set [n] = {1, 2,..., n}.
Определяемое понятие: symmetric group Идентификатор: Sn
2. Определение: In other words, Sn is the set of all bijective functions on [n]. Определяемое понятие: set of all bijective functions Идентификатор: Sn
Правила, используемые для разметки:
1. Не выделялись предложения, в которые ничего не вводится, или дана конкретная реализация, или пример объекта.
2. При разметке не выделяются объекты, которые описаны в предложениях с подсписками, таблицами и так далее, так как сложно описать их структуру линейно (существуют сложные взаимосвязи в объявлении объектов).
3. В случае, когда существует двойственность в обозначении объекта, выбирается то, что более емко его описывает.
Количество данных после разметки составило 3991 предложение. Распределение меток по классам составило: 77 меток класса «определений» и 3914 меток класса «не определений».
3.2. Визуализация векторных представлений
В данном разделе представлена визуализация результатов работы алгоритма снижения размерности t-SNE для векторных представлений набора данных, составленных с помощью моделей: BOW, TF-IDF, Word2Vec, GloVe, USE, BERT и MathBERT.
Модели BOW и TF-IDF были обучены на корпусе предложений, составляющим около 80 тысяч единиц с сайта arxiv.org по тематике «комбинаторика» (лучшими были выбраны модели на основе унограмм и биграмм). Для борьбы с недостатком обучающих) набора данных для остальных моделей был использован перенос знаний [22, 24].
■n
"Л Sir
'mm* ■
color
- Определение ■ Не определение
Рис. 2. Результаты работы t-SNE па векторных представлениях модели BOW при проекции на двумерную плоскость
\
п" • »
■ .'i is » Я ' ' , ■г" .S
е-*,-* ■ * . ■ '.Гт W ч •■Ж. "Л" г ■ ,- -4"
г . - ' * <?•/* * * >v V'" ~ V w.v V я...
• . "
> V ч, / >._;.• _ .Л'
в" ЦЪ
color
■ Определение
■ Не определение
Рис. 3. Представление результатов работы на модели ТЕ-ГОЕ при проекции на двумерную
плоскость
, ,, , * Ч: — j ..С'-JV '"■"■ li r^v'*' v .... '
СО ■'.'■. i с!
' V
color
- Определение
- Не определение
Axis 1
Рис. 4. Представление результатов работы ^БМЕ на модели \Vord2Vec при проекции на двумерную плоскость
•ш г , д .
— -
• ■■ ■»'Г йрс -4вь
color
■ Определение • Не определение
-150 -100
Рис. 5. Представление результатов работы ^БМЕ на модели 01оУе при проекции на двумерную плоскость
• J - Г-"-' ФВ
V ■ V •• w-'v-. • ЙЩЙШ
mmm:
Щ
- Определение • Не определение
Рис. 6. Представление результатов работы 1>8ХЕ на модели 11гпуег8а1 Бег^еисе Епсойег при проекции па двумерную плоскость
Рис. 7. Представление результатов работы t-SNE на модели BERT при проекции на двумерную плоскость
t-SNE
200 100 0
-w. r1" -А. P«. v ••
■ . " , v . •"<■• v. w:- v • ■■■ - .."3
- - .. * .Ч. «Vi. - ,.> v ■ v .,.; ¡i-ü-ri. • ч • ■ rit .. <...,Vt . « .....»V-.. Л . ;
•j öwf- r •* • ~ • •И?" -
"У » • - »1»
■100 -50 О 50 100 150
Axis :
Рис. 8. Представление результатов работы 1>8ХЕ на модели МаШВЕШ? при проекции на двумерную плоскость
На рис. 2 8 представлены результаты работы 1>ЗКЕ на векторных представлениях. Данные рисунки показывают, что метки классов четко не разделяются ни одним из предложенных векторных представлений, что делает затруднительным построение модели с хорошей обобщающей способностью.
t-SNE
■зоо -'.п о Ш юо IV)
Axis :
Рис. 9. Пример концентрации точек, полученных с помощью MathBERT при проекции па двумерную плоскость
На рис. 9 можно увидеть, что выделенные кругами места представляют собой наибольшие но сравнению с другими моделями скопления точек, полученные при использовании векторного представления модели MathBERT.
3.3. Построение классификатора
Ввиду несбалансированности классов в ходе работы были применены:
1. стратифицированная перекрестная проверка [24];
2. оценка качества но Fl-мере с целью контроля качества но несбалансированным классам [22].
3. оценки качества через Accuracy с целью контроля качества но всей выборке и оценке в парс вместе с F1-мерой [22].
Для предсказания использовался градиентный буетинг [25], а в качестве конкретной реализации был использован Xgboost [26]. Полноевязный слой был использован для модели MathBERT как классификатор на выходе с скрытого слоя [19]. Был произведен автоматический подбор гиперпараметров моделей градиентного буетинга (глубина деревьев, политика построения дерева, шаг обучения, количество деревьев, регуляризация и др.) с помощью фреймворка Optima [27].
Т а б л и ц а 1
Результаты работы классификаторов
Векторное представление Модель классификатора Fl-мсра Accuracy
BOW Градиентный буетинг 0.44259 0.97605
TF-IDF Градиентный буетинг 0.36139 0.97314
Word2Vec Градиентный буетинг 0.20350 0.97419
GloVc Градиентный буетинг 0.26854 0.97644
USE Градиентный буетинг 0.29525 0.95790
BERT Градиентный буетинг 0.35244 0.97118
MathBERT Полноевязная нейронная сеть 0.22522 0.93059
MathBERT Градиентный буетинг 0.48798 0.97495
Лучшей моделью в сравнении, представленном в табл. 1, показала себя модель MathBERT вместе с градиентным бустингом, показав наивысшее качество получившихся результатов по Fl-мере (и одно из лучших по accuracy), худшей моделью по Fl-мере показала себя модель Word2Vec.
4. Выводы
Рассмотренные визуализации на рис. 2-8 показали возможности применимости моделей векторных представлений для целевого домена математических текстов, а также общее качество разделения векторных представлений определений от остального текста. Представленные в табл. 1 результаты подтверждают исследования визуализации векторных представлений и показывают, что наибольшее качество получила модель MathBERT, натренированная на корпусе математических текстов. Это обосновывается тем, что механизм внимания данной модели наиболее приспособлен к различению отношений между математическими объектами, за счет домена-источника (корпуса математических документов). Из этого следует, что модели, обученные на обычных текстах в качестве домена-источника, плохо подходят для работы со специфическим форматом математических документов и набором текстов со служебной разметкой.
Из двух подходов к классификации более плохое качество на модели MathBERT получил классификатор из полносвязной нейронной сети по сравнению с моделью классификатора градиентного бустинга, что обуславливается малым набором данных, где для данной задачи градиентный бустинг показывает более высокие результаты.
Также можно увидеть, что достаточно высокое качество (2-е по ранжированию F1-меры) показала модель BOW, что обосновывается общей разреженностью текста служебными словами и формульными вставками, где, благодаря неупорядоченности коллекций входящих в модель BOW и отсутсвием их нормировки (как в модели TF-IDF), отдельные маркеры в тексте выражают более высокую степень значимости для классификатора, что отображает проблемы обработки домена и сложность работы с ним как с обычным естественным языком.
В качестве перспективных направлений для будущего исследования стоят задачи:
1. Дообучения MathBERT на математических статьях, заменяя формулы токеном, то есть дообучение на задаче маскирования текста, для получения более устойчивых и соответствующих задаче векторных представлений.
2. Увеличения объема существующего набора данных, для получения более статистически достоверных результатов.
Также с помощью вышеуказанных пунктов планируется развитие задачи классификации «определений» на предложениях в задачу извлечения именованных сущностей: определяемых понятий и символов, описывающих их.
Список литературы
1. Ganesalingam M. The language of mathematics. Berlin, Heidelberg : Springer, 2013.
2. Сайт LaTeX [Электронный ресурс]. Режим доступа: https://www.latex-project.org/
3. Ohrt A., Schmäh T. Machine translation of mathematical text // IEEE Access. 2021. V. 9. P. 38078-38086.
4. Berlioz L. ArGoT: A Glossary of Terms extracted from the arXiv // arXiv preprint arXiv:2109.02801. 2021.
5. Feigenbaum E.A. [et al.}. Computers and thought. New York : McGraw-Hill, 1963. V. 7.
6. Bobrow D. [et al.}. Natural language input for a computer problem solving system. 1964.
7. Charniak Е. Computer solution of calculus word problems // Proceedings of the 1st international joint conference on Artificial intelligence. 1969. P. 303-316.
8. Meadows J., Freitas A. A survey in mathematical language processing // arXiv preprint arXiv:2205.15231. 2022.
9. Berlioz L. WIP: Creating a Database of Definitions From Large Mathematical Corpora.
10. Guidi F., Sacerdoti Coen C. A survey on retrieval of mathematical knowledge // Mathematics in Computer Science. 2016. V. 10, N 4. P. 409-427.
11. Zanibbi R., Blostein D. Recognition and retrieval of mathematical expressions // International Journal on Document Analysis and Recognition (IJDAR). 2012. V. 15. P. 331357.
12. Sparck Jones K. A statistical interpretation of term specificity and its application in retrieval // Journal of documentation. 1972. V. 28, N 1. P. 11-21.
13. Qaiser S., Ali R. Text mining: use of TF-IDF to examine the relevance of words to documents // International Journal of Computer Applications. 2018. V. 181, N 1. P. 25-29.
14. Harris Z.S. Distributional structure // Word. 1954. V. 10, N 2-3. P. 146-162.
15. Cer D. \et al.\. Universal sentence encoder // arXiv preprint arXiv:1803.11175. 2018.
16. Devlin J. \et al], BERT: Pre-training of deep bidirectional transformers for language understanding // arXiv preprint arXiv:1810.04805. 2018.
17. Peng S. \et al.}. Mathbert: A pre-trained model for mathematical formula understanding // arXiv preprint arXiv:2105.00377. 2021.
18. Van der Maaten L., Hinton G. Visualizing data using t-SNE // Journal of machine learning research. 2008. V. 9, N 11.
19. Vaswani A. \et al.}. Attention is all you need // Advances in neural information processing systems. 2017. V. 30.
20. Iyyer M. \et al.}. Deep unordered composition rivals syntactic methods for text classification // Proceedings of the 53rd annual meeting of the association for computational linguistics and the 7th International joint conference on natural language processing. 2015. V. 1. P. 1681-1691.
21. Сайт NTCIR-12 [Электронный ресурс]. Режим доступа: https://ntcir-math.nii.ac.jp/task-overview/
22. Бенджио И., Гудфеллоу Я., Курвилль А. Глубокое обучение Москва : ДМК-Пресс, 2018.
23. Сайт Brat [Электронный ресурс]. Режим доступа: https://brat.nlplab.org/
24. Чару А. Нейронные сети и глубокое обучение: учебный курс Санкт-Петербург : ООО «Диалектика», 2020.
25. Friedman J.H. Stochastic gradient boosting // Computational statistics k, data analysis. 2002. V. 38, N 4. P. 367-378.
26. Chen Т., Guestrin C. Xgboost: A scalable tree boosting system // Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining. 2016. P. 785794.
27. Akiba T. \et al.}. Optuna: A next-generation hvperparameter optimization framework // Proceedings of the 25th ACM SIGKDD international conference on knowledge discovery k, data mining. 2019. P. 2623-2631.
References
1. Ganesalingam M. The language of mathematics. Berlin, Heidelberg : Springer, 2013.
2. LaTeX website, https://www.latex-project.org/
3. Ohri A., Schmah T. Machine translation of mathematical text. IEEE Access. 2021. V. 9. P. 38078-38086.
4. Berlioz L. ArGoT: A Glossary of Terms extracted from the arXiv. arXiv preprint arXiv:2109.02801. 2021.
5. Feigenbaum E.A., et al. Computers and thought. New York : McGraw-Hill, 1963. V. 7.
6. Bobrow D., et al. Natural language input for a computer problem solving system. 1964.
7. Charniak E. Computer solution of calculus word problems. Proceedings of the 1st international joint conference on Artificial intelligence. 1969. P. 303-316.
8. Meadows J., Freitas A. A survey in mathematical language processing. arXiv preprint arXiv:2205.15231. 2022.
9. Berlioz L. WIP: Creating a Database of Definitions From Large Mathematical Corpora.
10. Guidi F., Sacerdoti Coen C. A survey on retrieval of mathematical knowledge. Mathematics in Computer Science. 2016. V. 10, N 4. P. 409-427.
11. Zanibbi R., Blostein D. Recognition and retrieval of mathematical expressions. International Journal on Document Analysis and Recognition (IJDAR). 2012. V. 15. P. 331-357.
12. Sparck Jones K. A statistical interpretation of term specificity and its application in retrieval. Journal of documentation. 1972. V. 28, N 1. P. 11-21.
13. Qaiser S., Ali R. Text mining: use of TF-IDF to examine the relevance of words to documents. International Journal of Computer Applications. 2018. V. 181, N 1. P. 25-29.
14. Harris Z.S. Distributional structure. Word. 1954. V. 10, N 2-3. P. 146-162.
15. Cer D., et al. Universal sentence encoder. arXiv preprint arXiv:1803.11175. 2018.
16. Devlin J., et al. BERT: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805. 2018.
17. Peng S., et al. Mathbert: A pre-trained model for mathematical formula understanding. arXiv preprint arXiv:2105.00377. 2021.
18. Van der Maaten L., Hinton G. Visualizing data using t-SNE. Journal of machine learning research. 2008. V. 9, N 11.
19. Vaswani A., et al. Attention is all you need. Advances in neural information processing systems. 2017. V. 30.
20. Iyyer M., et al. Deep unordered composition rivals syntactic methods for text classification. Proceedings of the 53rd annual meeting of the association for computational linguistics and the 7th International joint conference on natural language processing. 2015. V. 1. P. 1681— 1691.
21. NTCIR-12 website, https://ntcir-math.nii.ac.jp/task-overview/
22. Goodfellow I., Bengio Y., Courville A. Deep learning. Moscow : DMK-Press, 2018. (in Rassian).
23. Brat website, https://brat.nlplab.org/
24. Charu A. Neural networks and deep learning: a textbook. Saint-Petersburg : LLC «Dialectika», 2020. (in Rassian).
25. Friedman J.H. Stochastic gradient boosting. Computational statistics k, data analysis. 2002. V. 38, N 4. P. 367-378.
26. Chen Т., Guestrin С. Xgboost: A scalable tree boosting system. Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining. 2016. P. 785794.
27. Akiba Т., et al. Optuna: A next-generation hvperparameter optimization framework. Proceedings of the 25th ACM SIGKDD international conference on knowledge discovery k data mining. 2019. P. 2623-2631.
Поступила в редакцию 01.03.2024