Научная статья на тему 'АНАЛИЗ СУЩЕСТВУЮЩИХ МЕТОДОВ АВТОМАТИЧЕСКОГО ТЕКСТОВОГО АНАЛИЗА'

АНАЛИЗ СУЩЕСТВУЮЩИХ МЕТОДОВ АВТОМАТИЧЕСКОГО ТЕКСТОВОГО АНАЛИЗА Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
226
39
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АВТОМАТИЧЕСКИЙ ТЕКСТОВЫЙ АНАЛИЗ / ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА / МАШИННОЕ ОБУЧЕНИЕ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Гайсин А. Э.

В работе построена математическая модель, характеризующая зависимость загрязнения атмосферного воздуха от количества легковых автомобилей. Представлен корреляционный и регрессионный анализ. При помощи эконометрических инструментов спрогнозированы тренды развития фактора в модели, на основании чего осуществлен прогноз загрязнения атмосферного воздуха

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Гайсин А. Э.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ANALYSIS OF EXISTING METHODS OF AUTOMATIC TEXT ANALYSIS

The paper presents a mathematical model characterizing the dependence of atmospheric air pollution on the number of passenger cars. Correlation and regression analysis is presented. With the help of econometric tools, trends in the development of the factor in the model are predicted, on the basis of which the forecast of atmospheric air pollution is carried out.

Текст научной работы на тему «АНАЛИЗ СУЩЕСТВУЮЩИХ МЕТОДОВ АВТОМАТИЧЕСКОГО ТЕКСТОВОГО АНАЛИЗА»

УДК 004.912

Гайсин А.Э.

студент 2 курса магистратуры кафедры билингвального и цифрового образования Казанский (Приволжский) Федеральный университет (г. Пермь, Россия)

Научный руководитель: Данилов А.В.

канд. пед. наук, доцент билингвального и цифрового образования Казанский (Приволжский) Федеральный университет (г. Казань, Россия)

АНАЛИЗ СУЩЕСТВУЮЩИХ МЕТОДОВ АВТОМАТИЧЕСКОГО ТЕКСТОВОГО АНАЛИЗА

Аннотация: в работе построена математическая модель, характеризующая зависимость загрязнения атмосферного воздуха от количества легковых автомобилей. Представлен корреляционный и регрессионный анализ. При помощи эконометрических инструментов спрогнозированы тренды развития фактора в модели, на основании чего осуществлен прогноз загрязнения атмосферного воздуха.

Ключевые слова: автоматический текстовый анализ, обработка естественного языка, машинное обучение.

Автоматический текстовый анализ (ATA) - это обширная область исследований, которая занимается изучением и разработкой методов и алгоритмов для обработки, анализа и категоризации текстовых данных. В последние годы разработка и применение методов автоматического текстового анализа значительно усилилась благодаря росту объема доступных текстовых

данных, прогрессу в области искусственного интеллекта и машинного обучения, а также развитию вычислительных технологий.

Традиционные методы автоматического текстового анализа

1. Токенизация - процесс разбиения текста на отдельные слова или токены. Токенизация является основой для анализа текста и позволяет преобразовать неструктурированный текст в структурированный вид, пригодный для дальнейшего анализа.

2. Стемминг и лемматизация - методы приведения слов к их корневой форме. Стемминг основан на удалении окончаний слов, в то время как лемматизация опирается на морфологический анализ и приведение слов к их базовой форме.

3. Векторное представление текста - представление текста в виде численного вектора, где каждый элемент вектора соответствует определенному признаку текста. Наиболее известные методы векторного представления текста - это метод "мешка слов" (Bag of Words) и TF-IDF (Term Frequency-Inverse Document Frequency).

4. Кластеризация - группировка текстов на основе их сходства.

Методы машинного обучения

1. Наивный Байесовский классификатор - простой и быстрый алгоритм классификации текстов, основанный на теореме Байеса. Этот метод широко используется для фильтрации спама, определения языка текста и категоризации новостей.

2. Метод опорных векторов (SVM) - алгоритм машинного обучения, используемый для решения задач классификации и регрессии. SVM особенно эффективен при работе с большим количеством признаков, что делает его подходящим для анализа текстовых данных.

3. Решающие деревья и случайный лес - алгоритмы классификации и регрессии, основанные на построении иерархической структуры решений. Решающие деревья хорошо интерпретируемы и могут использоваться для

извлечения правил из текстовых данных, в то время как случайный лес обеспечивает более высокую точность за счет ансамбля деревьев.

Методы глубокого обучения

1. Сверточные нейронные сети (CNN) - архитектура нейронных сетей, изначально разработанная для обработки изображений, но также успешно применяемая для анализа текстовых данных. CNN хорошо справляются с задачами классификации текстов и анализа тональности.

2. Рекуррентные нейронные сети (RNN) и LSTM - архитектуры нейронных сетей, разработанные специально для работы с последовательными данными, такими как текст. RNN и LSTM способны улавливать контекст и долгосрочные зависимости в тексте, что делает их подходящими для задач генерации текста, машинного перевода и распознавания речи.

3. Трансформеры и модели на основе BERT - новые архитектуры нейронных сетей, основанные на механизме внимания (attention). Трансформеры обеспечивают высокую эффективность и масштабируемость при работе с большими объемами текстовых данных, а модели на основе BERT показывают впечатляющие результаты во многих задачах автоматического текстового анализа, таких как извлечение информации, анализ тональности и вопросно-ответные системы.

Предобученные модели и трансферное обучение

Трансферное обучение - это подход, который использует знания, полученные из одной задачи, для решения других задач. В области автоматического текстового анализа трансферное обучение позволяет использовать предобученные модели, такие как BERT, GPT и RoBERTa , для решения разнообразных задач без необходимости обучать модель с нуля.

Обработка естественного языка (NLP)

Обработка естественного языка (Natural Language P rocessing, NLP) - это область исследований, которая разрабатывает методы и алгоритмы для анализа, понимания и генерации текстов на естественном языке. NLP объединяет знания из области компьютерных наук, искусственного интеллекта, лингвистики и

машинного обучения для создания интеллектуальных систем, способных взаимодействовать с человеком на естественном языке.

NLP включает в себя множество методов и техник автоматического текстового анализа, таких как:

- извлечение сущностей (Named Entity Recognition, NER),

- разбор предложений (parsing),

- определение частей речи (Part-of-Speech tagging, POS-tagging),

- семантический анализ (semantic parsing),

- анализ тональности (sentiment analysis),

- суммаризация текста (text summarization),

- машинный перевод (machine translation) и др.

Освоение методов и техник NLP может помочь Junior-разработчикам создавать более сложные и полезные системы обработки текста, которые способны понимать и анализировать текст на глубоком уровне.

СПИСОК ЛИТЕРАТУРЫ:

1. Беляев И.Н. Технологии обработки текстов: учебное пособие / И.Н. Беляев. - СПб.: БХВ-Петербург, 2015. - 280 с.

2. Борисов А.А. Методы анализа текста: учебное пособие / А.А. Борисов. -М.: ЮРАЙТ, 2017. - 200 с.

3. Макаров А.Н. Интеллектуальный анализ текста: учебное пособие / А.Н. Макаров. - СПб.: Питер, 2017. - 280 с.

4. Смирнов Г.И. Методы анализа текста: учебник / Г.И. Смирнов. - СПб.: Питер, 2016. - 280 c.

Gaisin A.E.

2nd year master's student of the Department of Bilingual and Digital Education Kazan Federal University (Perm, Russia)

Scientific advisor: Danilov A.V.

Candidate of Pedagogical Sciences, Associate Professor of Bilingual and Digital Education Kazan Federal University (Kazan, Russia)

ANALYSIS OF EXISTING METHODS OF AUTOMATIC TEXT ANALYSIS

Abstract: the paper presents a mathematical model characterizing the dependence of atmospheric air pollution on the number of passenger cars. Correlation and regression analysis is presented. With the help of econometric tools, trends in the development of the factor in the model are predicted, on the basis of which the forecast of atmospheric air pollution is carried out.

Keywords: automatic text analysis, natural language processing, machine learning.

i Надоели баннеры? Вы всегда можете отключить рекламу.