Научная статья на тему 'СЕНТИМЕНТАЛЬНЫЙ АНАЛИЗ ПОСТОВ В СОЦИАЛЬНЫХ СЕТЯХ ПОСРЕДСТВОМ PYTHON'

СЕНТИМЕНТАЛЬНЫЙ АНАЛИЗ ПОСТОВ В СОЦИАЛЬНЫХ СЕТЯХ ПОСРЕДСТВОМ PYTHON Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
478
70
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ГЛУБОКОЕ ОБУЧЕНИЕ / ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА / МАШИННОЕ ОБУЧЕНИЕ / НЕЙРОННЫЕ СЕТИ / УНИТАРНОЕ ПРЕДСТАВЛЕНИЕ ТЕКСТОВ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Тарасова А.Н., Иванов К.О.

На сегодняшний день миллиарды пользователей регулярно пользуются социальными сетями и выражают свое мнение в сети Интернет. Таким образом, появляется возможность сбора значительного объема текстовой информации. В то же время прогресс в развитии методов глубокого обучения и обработки естественного языка позволяет в автоматическом режиме без участия человека выявлять эмоциональную окраску сообщений. В статье перечислены основные этапы создания систем автоматического сентиментального анализа текстов, обозначены возможные приложения этих систем, также рассмотрены современные инструментальные средства обработки естественного языка.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «СЕНТИМЕНТАЛЬНЫЙ АНАЛИЗ ПОСТОВ В СОЦИАЛЬНЫХ СЕТЯХ ПОСРЕДСТВОМ PYTHON»

показатели, как «Web of Sciences/SCOPUS». Это в корне не верно, так как, например, даже с количественной точки зрения в базу данных SCOPUS входит существенно большее число журналов (порядка 40000), чем в Web of Sciences (порядка 10000), а требования к порядку представлению статей и их научному уровню в Web of Sciences существенно более сложные и серьёзные. С этой точки зрения, без ущерба уровню опубликованных работ (для отчетности в рамках требований, предъявляемых к российским научным организациям) на начальной стадии следует сконцентрироваться на опубликовании статей по результатам выполненных работ в журналах, индексируемых в международной базе данных СКОПУС (SCOPUS).

С этой целью были проанализированы все российские журналы, издаваемые в настоящее время как на русском, так и на английском языке (в небольшом количестве), и входящие в наукометрическую базу данных СКОПУС (SCOPUS), согласно актуальным данным на 2020-2021 г., с точки зрения возможности опубликования в них результатов научных работ сотрудников ФГБУ ВНИИ ГОЧС (ФЦ) и с учётом требований, предъявляемых к опубликованию сведений закрытого характера. Во внимание были приняты все основные направления исследований (по данным интернет-сайта института), осуществляемые всеми научными центрами, входящими в настоящее время в структуру института, с учётом дублирования тематики.

Применительно к каждому конкретному направлению исследований был предложен примерный набор журналов, наиболее подходящих с точки зрения тематики публикуемых в них статей. В общей сложности было предложено более 40 (сорока) журналов различного профиля. После анализа тематики исследований, а также целей и задач как института в целом, так и отдельных его подразделений - научно-исследовательских центров (НИЦ), были выработаны конкретные рекомендации по увеличению публикационной активности сотрудников одного из научно-исследовательских институтов МЧС России -ФГБУ ВНИИ ГОЧС (ФЦ). Предложены конкретные подборки журналов (более 40-а), издаваемых в России и входящих в международную наукометрическую базу данных SCOPUS (СКОПУС) и наиболее перспективных с точки зрения опубликования в них результатов выполняемых в институте научно-исследовательских работ (с учётом требований о защите государственной тайны).

© Кузнецов М.В., Новицкая А.С., 2022

УДК 60.608

Тарасова А.Н.

стар. преп. ПГТУ г. Йошкар-Ола, РФ Иванов К.О.

к.т.н., доцент ПГТУ г. Йошкар-Ола, РФ

СЕНТИМЕНТАЛЬНЫЙ АНАЛИЗ ПОСТОВ В СОЦИАЛЬНЫХ СЕТЯХ ПОСРЕДСТВОМ PYTHON

Аннотация

На сегодняшний день миллиарды пользователей регулярно пользуются социальными сетями и выражают свое мнение в сети Интернет. Таким образом, появляется возможность сбора значительного объема текстовой информации. В то же время прогресс в развитии методов глубокого обучения и обработки естественного языка позволяет в автоматическом режиме без участия человека выявлять эмоциональную окраску сообщений. В статье перечислены основные этапы создания систем автоматического сентиментального анализа текстов, обозначены возможные приложения этих систем, также рассмотрены

современные инструментальные средства обработки естественного языка.

Ключевые слова:

Глубокое обучение, обработка естественного языка, машинное обучение, нейронные сети,

унитарное представление текстов

Введение. Под методами обработки естественного языка (англ. NLP - Natural language processing) понимается область науки, являющаяся квинтэссенцией таких областей знаний, как искусственный интеллект, лингвистика и наука о данных. Главной задачей NLP является решение практических задач с помощью приемов понимания текстов, базирующихся на статистических методах. Это «понимание» достигается посредством преобразования текстов в различные представления в виде дискретных или непрерывных комбинаторных структур, среди которых следует выделить графы, векторы/тензоры, и деревья [1]. В частности, наибольшее распространение получило унитарное представление и TF-IDF представление. Одной из новых прикладных задач NLP является сентиментальный анализ постов в социальных сетях.

Сентиментальный анализ текстов и его приложения. Сентиментальный анализ текстов представляет собой процесс количественного определения того, является ли текст положительным, отрицательным или нейтральным. Это также известно как интеллектуальный анализ мнений, получение мнения или отношения говорящего [2]. Можно выделить следующие области, где найдут применение системы автоматического сентиментального анализа текстов, размещенных в социальных сетях:

• Политика: В политической сфере сентиментальный анализ дает возможность отслеживать политические взгляды и настроение граждан, выявлять согласованность или же несоответствие между заявленными и реальными правительственными действиями. Иногда инструмент может быть использован для прогнозирования результатов выборов.

• Общественное мнение: Анализ настроений также используется для мониторинга и анализа социальных явлений, выявления потенциально опасных ситуаций и определения общего настроения блогосферы.

Наиболее удобным инструментом для разработки систем автоматического сентиментального анализа сообщений является язык программирования Python. С использованием широко распространенных библиотек Python, таких как PyTorch и numpy в достаточно короткие сроки может быть разработана архитектура приложения, включающего методы обработки естественного языка. Для использования на практике методов обработки естественного языка требуется наличие значительного объема обучающих данных. Обучающая база данных может быть создана из набора постов в социальных сетях, таких как VKontakte, FaceBook, Twitter, Instagram [3]. При этом могут использоваться атематические парсеры сайтов, написанные также на языке программирования Python. Однако, классификацию эмоциональной окраски сообщений на этапе формирования обучающей базы данных должен выполнять человек. Следующим этапом разработки системы автоматической классификации эмоциональной окраски постов в социальных сетях является ее обучение. Для этого каждое слово в обучающей выборке должно быть представлено вектором (тензором). При этом сам текст представляется двумерной матрицей, столбцом которой является недавно закодированный тензор. Подобное представление текстов называется унитарным кодированием. Оно позволяет учитывать взаимное расположение слов при классификации текстов. На следующем этапе закодированный текст подается на вход нейронной сети для ее обучения. При этом требуется исследовать различные архитектуры нейронных сетей и различные комбинации их параметров с целью определения наиболее оптимального подхода к классификации текстов по их эмоциональной окраске. После обучения на вход нейронной сети можно подавать любой текст, подвергнутый унитарному кодированию, и получить на ее выходе количественное представление, характеризующее эмоциональную окраску этого текста [4].

Заключение. Во время пандемии COVID-19 миллионы людей во всем мире выражали свои чувства относительно пандемии в социальных сетях, что является важным каналом для открытого обсуждения чувств и обмена мнениями. Затем эти данные использовались для экстраполяции информации, которая

может быть полезна для понимания последствий, вызванных COVID-19 для компаний, организаций, а также для получения представления о том, как люди эмоционально откликаются на действия своих правительств на вызовы глобальной пандемии. Например, во время COVID-19 такие страны, как Австралия, Бельгия и Индия, писали в Твиттере с положительным настроением, тогда как китайцы выражали негативное отношение к тому же [5]. Анализ тональности - это контекстуальный анализ текста, который идентифицирует и извлекает из исходного материала субъективную информацию, которая может быть полезна во многих научных и коммерческих областях, таких как обнаружение событий, рекомендательные системы и анализ мнений.

Список использованной литературы:

1. Брайан, Макмахан. Знакомство с PyTorch: глубокое обучение при обработке естественного языка / Макмахан Брайан, Рао Делип - СПб: Питер, 2020. - 256 с.

2. Vadivukarassi M., Puviarasan N., Aruna P. Sentimental analysis of tweets using Naive Bayes algorithm //World Applied Sciences Journal. - 2017. - Т. 35. - №. 1. - С. 54-59.

3. Shobana G., Vigneshwara B., Maniraj Sai A. Twitter sentimental analysis //International Journal of Recent Technology and Engineering (IJRTE). - 2018. - Т. 7.

4. Siddharth S., Darsini R., Sujithra M. Sentiment analysis on twitter data using machine learning algorithms in python //Int. J. Eng. Res. Comput. Sci. Eng. - 2018. - Т. 5. - №. 2. - С. 285-290.

5. Pokharel B. P. Twitter sentiment analysis during covid-19 outbreak in Nepal //Available at SSRN 3624719. -2020.

© Тарасова А.Н., Иванов К.О., 2022

УДК 614.841

Шевлякова О. Ю.

Магистрант ТГУ, г. Тольятти, Самарская обл., РФ

ПРОВЕДЕНИЕ ПЕРИОДИЧЕСКИХ ПРОВЕРОК СОБЛЮДЕНИЯ ТЕХНОЛОГИЧЕСКИХ РЕЖИМОВ, СВЯЗАННЫХ С ЗАГРЯЗНЕНИЕМ ОКРУЖАЮЩЕЙ СРЕДЫ В ОРГАНИЗАЦИИ

Аннотация

Статья посвящена исследованию промышленной безопасности и ее влиянию на окружающую среду. Показаны теоретические основы - общие особенности проведения периодических проверок соблюдения технологических режимов.

Ключевые слова

Технологические режимы, окружающая среда, загрязнение.

Воздействие предприятий на окружающую среду опасно, поскольку ежегодно фиксируется большое количество выброса вредных веществ в атмосферу, почву и гидросферу. Вопрос экологических проблем, вызванных индустриальным воздействием, в наше время встает достаточно остро и серьезно.

Экологическая безопасность на предприятии, прежде всего, решается проведением необходимых мероприятий, а именно аудитом. Экологический аудит проводят с целью исследования загрязняющих параметров деятельности промышленного предприятия. Аудит проводят специализированные организации, имеющие лицензию на право заниматься этой деятельностью.

Главная цель экологического аудита - выявить несоответствие действующему природоохранному и

i Надоели баннеры? Вы всегда можете отключить рекламу.