Научная статья на тему 'ОБЗОР МЕТОДОВ АНАЛИЗА ЕСТЕСТВЕННОГО ЯЗЫКА НА ОСНОВЕ МОДЕЛЕЙ МАШИННОГО ОБУЧЕНИЯ'

ОБЗОР МЕТОДОВ АНАЛИЗА ЕСТЕСТВЕННОГО ЯЗЫКА НА ОСНОВЕ МОДЕЛЕЙ МАШИННОГО ОБУЧЕНИЯ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
42
13
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
мешок слов / вектор / модель / bag of words / vector / model

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — В В. Мироненко, А А. Савельева, С А. Содиков, Л В. Липинский

Проведены исследования двух методов обработки естественного языка на основе моделей машинного обучения для данных твиттов о бедствиях. Данные методы могут быть применены для данных на естественном языке, относящихся к ракетно-космической области.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — В В. Мироненко, А А. Савельева, С А. Содиков, Л В. Липинский

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

OVERVIEW OF METHODS FOR ANALYSIS OF NATURAL LANGUAGE BASED ON MACHINE LEARNING MODELS

Research has been done on two natural language processing methods for disaster tweet data. These methods can be applied to natural language data related to the space and rocket field.

Текст научной работы на тему «ОБЗОР МЕТОДОВ АНАЛИЗА ЕСТЕСТВЕННОГО ЯЗЫКА НА ОСНОВЕ МОДЕЛЕЙ МАШИННОГО ОБУЧЕНИЯ»

Секция «Математические методы моделирования, управления и анализа данных»

УДК 004.94

ОБЗОР МЕТОДОВ АНАЛИЗА ЕСТЕСТВЕННОГО ЯЗЫКА НА ОСНОВЕ МОДЕЛЕЙ

МАШИННОГО ОБУЧЕНИЯ

*

В.В. Мироненко , А.А. Савельева, С.А. Содиков Научный руководитель - Л.В. Липинский

Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

*E-mail: mironenko.vlad2011@yandex.ru

Проведены исследования двух методов обработки естественного языка на основе моделей машинного обучения для данных твиттов о бедствиях. Данные методы могут быть применены для данных на естественном языке, относящихся к ракетно-космической области.

Ключевые слова: мешок слов, вектор, модель.

OVERVIEW OF METHODS FOR ANALYSIS OF NATURAL LANGUAGE BASED ON

MACHINE LEARNING MODELS

V.V. Mironenko*, A.A. Saveleva, S.A. Sodikov Scientific supervisor - L.V. Lipinsky

Reshetnev Siberian State University of Science and Technology 31, Krasnoyarskii rabochii prospekt, Krasnoyarsk, 660037, Russian Federation *E-mail: mironenko.vlad2011@yandex.ru

Research has been done on two natural language processing methods for disaster tweet data. These methods can be applied to natural language data related to the space and rocket field.

Keywords: bag of words, vector, model.

Введение. Обработка естественного языка (Natural Language Processing, NLP) — одно из важнейших направлений исследований в области искусственного интеллекта. Зарождение этого направления связывают со статьей алана Тьюринга «Вычислительная техника и интеллект», в которой в качестве критерия интеллекта был предложен так называемый тест Тьюринга [1]. Идея, что было бы хорошо использовать машины для решения полезных задач, связанных с естественным языком, на котором разговаривают и пишут люди оказалась весьма востребована. Неструктурированные текстовые данные, такие как содержимое книги или твита, являются одним из самых интересных источников признаков и одними из самых сложных для обработки [2]. Из-за большого объема данных на естественном языке, относящихся к ракетно-космической области, эта тема актуальна для этой области.

Описание используемых методов векторизации текста. Мешок слов. Одним из наиболее распространенных методов преобразования текста в признаки является использование модели мешка слов. Эти модели выводят признак для каждого уникального слова в текстовых данных, при этом каждый признак содержит количество вхождений в наблюдениях. На практике модель мешка слов в основном используется для формирования признаков. На основе мешка слова можно вычислять различные меры, характеризующие исходный текст. Чаще всего по мешку слов находят частоту слов, то есть количество появлений каждого слова во всем тексте [3].

TF-IDF. Большинство математических моделей работают в векторных пространствах больших размерностей, поэтому необходимо отобразить текст в векторном пространстве.

Актуальные проблемы авиации и космонавтики - 2021. Том 2

Основным походом является мешок слов (bag-of-words): для документа формируется вектор размерности словаря, для каждого слова выделяется своя размерность, для документа записывается признак насколько часто слово встречается в нем, получаем вектор. Наиболее распространенным методом для вычисления признака является TF-IDF (TF — частота слова, term frequency, IDF — обратная частота документа, inverse document frequency). TF вычисляется, например, счетчиком вхождения слова. IDF обычно вычисляют как логарифм от числа документов в корпусе, разделённый на количество документов, где это слово представлено. Таким образом, если какое-то слово встретилось во всех документах корпуса, то такое слово не будет никуда добавлено. Плюсами мешка слов является простая реализация, однако данный метод теряет часть информации, например, порядок слов [3].

Практические результаты. К данным твиттов о бедствиях мы применили два метода обработки естественного языка, такие как: мешок слов и TF-IDF. Перед применением методов провели отчистку текста. Применили конкатинацию и лемматизацию, удалили стоп-слова и выделили основы слов. После применения методов, провели обучение на моделях классификации и определили точность на каждой модели. Точности приведены в табл.1.

Точности моделей классификации для твиттов о бедствии

Таблица 1

Модель Мешок слов/ f-lMepa TF-IDF / f-lMepa

Случайный лес 0.693113 0.650171

Адабуст 0.674854 0.674651

Логистическая регрессия 0.745398 0.735219

КНН 0.743091 0.743091

Метод опорно- машинных 0.738663 0.738663

векторов

Мультинаивный байес 0.754032 0.739106

Бернуллиев байес 0.744132 0.744132

Вывод. В результате применения к данным твиттов о бедствиях двух методов обработки естественного языка, таких как мешок слов и TF-IDF для кодирования текстовых данных в числовой признак, были выявлены недостатки и преимущества этих методов. Недостатком является создание уникальных признаков слов в данных, вследствие чего наши результирующие матрицы могут иметь высокие размерности. Для решения этой проблемы можно воспользоваться методами сокращения размерностей. Преимуществом метода мешок слов является хорошая сходимость в точности классификации для модели мультинаивного байеса, а для TF-IDF - для модели КНН. Для метода мешка слов оценка f-1 меры равняется 0.754032, а для TF-IDF составляет 0.743091. В сравнении двух методов для данных твиттов о бедствиях лучше всего подходит метод мешок слов, поскольку скорость обучения модели быстрее, а также точность классификации является большей на 0.01%.

Библиографические ссылки

1. Тьюринг А. Может ли машина мыслить? М.: ГИФМЛ, 1960 110 с.

2. Элбон К. Машинное обучение с использованием Python. Сборник рецептов: Пер. с англ. — СПб.: БХВ-Петербург, 2019. 384 с.

3. Бенгфорт Б., Охеда Т., Билбро Р. Прикладной анализ текстовых данных на Python. Машинное обучение и создание приложений обработки естественного языка. — СПб.: Питер, 2019. 368 с.

© Мироненко В.В., Савельева А.А., Содиков С. А., 2021

i Надоели баннеры? Вы всегда можете отключить рекламу.