Научная статья на тему 'СРАВНЕНИЕ АЛГОРИТМОВ ТЕМАТИЧЕСКОГО МОДЕЛИРОВАНИЯ ПРИ ОПРЕДЕЛЕНИИ ТЕМАТИК ПОСТОВ ЛЮДЕЙ В СОЦИАЛЬНОЙ СЕТИ “ВКОНТАКТЕ”'

СРАВНЕНИЕ АЛГОРИТМОВ ТЕМАТИЧЕСКОГО МОДЕЛИРОВАНИЯ ПРИ ОПРЕДЕЛЕНИИ ТЕМАТИК ПОСТОВ ЛЮДЕЙ В СОЦИАЛЬНОЙ СЕТИ “ВКОНТАКТЕ” Текст научной статьи по специальности «СМИ (медиа) и массовые коммуникации»

CC BY
259
52
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ / СОЦИАЛЬНАЯ СЕТЬ / TOPIC MODELING / SOCIAL NETWORK

Аннотация научной статьи по СМИ (медиа) и массовым коммуникациям, автор научной работы — Черкасов Е. И.

В статье исследуется определение тематик текстов постов людей в социальной сети “Вконтакте”. Дано описание тематического моделирования, описаны базовые модели векторного представления слов. Проведено сравнение моделей LDA, PLSA, ARTM при определении тематик текстов постов. Проведенные эксперименты показали, что лучше всего с этой задачей справляется модель ARTM.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

COMPARISON OF TOPIC MODELING ALGORITHMS IN DETERMINING THE TOPICS OF PEOPLE'S POSTS ON THE SOCIAL NETWORK “VKONTAKTE”

The article examines the definition of topics of texts of posts of people in the social network “Vkontakte”. A description of topic modeling is given, basic models of vector representation of words are described. A comparison of the LDA, PLSA, ARTM models in determining the topics of the text of the posts. The experiments showed that the ARTM model handles this task best.

Текст научной работы на тему «СРАВНЕНИЕ АЛГОРИТМОВ ТЕМАТИЧЕСКОГО МОДЕЛИРОВАНИЯ ПРИ ОПРЕДЕЛЕНИИ ТЕМАТИК ПОСТОВ ЛЮДЕЙ В СОЦИАЛЬНОЙ СЕТИ “ВКОНТАКТЕ”»

Shurkina V. I.; zajavitel' i patentoobladatel': Sibir. gosud. tehnolog. un-t № 2014103760/12, zajavl. 04.02.2014; opubl. 10.07.2015 Bjul. № 19. - 9 s.

3. M. A. Karbyshev, Ju. D. Alashkevich, A. A. Nabieva Vlijanie geometricheskogo postroenija nozhevoj garnitury na process obrabotki voloknistoj suspenzii // Vestnik gosudarstvennogo ajerokosmicheskogo universiteta imeni akademika M. F. Reshetneva. 2006. № 5. 123-127.

4. Patent № 2314380. Rossijskaja Federacija, MPK 51 D21D1/30, B02C 7/12. Razmalyvajushhaja

УДК 004 ГРНТИ 16.31.21

garnitura diskovoj mel'nicy / Alashkevich Ju. D., Kovalev V. I., Karbyshev M. A., Kozhuhov V. A., Baranovskij V. P.; zajavitel' i patentoobladatel': Sibir. gosud. tehnolog. un-t № 2006121708/12, zajavl. 19.06.2006; opubl. 10.01.2008, Bjul. № 1. - 5 s.

5. Ju. D. Alashkevich, V. I. Kovalev, A. A. Nabieva Vlijanie risunka garnitury na process razmola voloknistyh polufabrikatov: Monografija v 2-h chastjah. Chast' 1 / Ju.D. Alashkevich, V.I. Kovalev, A.A. Nabieva. Krasnojarsk: SibGTU, 2010. - 168 s.

СРАВНЕНИЕ АЛГОРИТМОВ ТЕМАТИЧЕСКОГО МОДЕЛИРОВАНИЯ ПРИ ОПРЕДЕЛЕНИИ ТЕМАТИК ПОСТОВ ЛЮДЕЙ В СОЦИАЛЬНОЙ СЕТИ "ВКОНТАКТЕ"_

Черкасов Е.И.

Черкасов Егор Игоревич - магистрант, Институт информационных технологий, Челябинский Государственный Университет, г. Челябинск

COMPARISON OF TOPIC MODELING ALGORITHMS IN DETERMINING THE TOPICS OF PEOPLE'S POSTS ON THE SOCIAL NETWORK "VKONTAKTE"

Cherkasov E.I.

Cherkasov Egor Igorevich - undergraduate, Institute of Information Technologies, Chelyabinsk State University, Chelyabinsk

АННОТАЦИЯ

В статье исследуется определение тематик текстов постов людей в социальной сети "Вконтакте". Дано описание тематического моделирования, описаны базовые модели векторного представления слов. Проведено сравнение моделей LDA, PLSA, ARTM при определении тематик текстов постов. Проведенные эксперименты показали, что лучше всего с этой задачей справляется модель ARTM. ABSTRACT

The article examines the definition of topics of texts of posts of people in the social network "Vkontakte". A description of topic modeling is given, basic models of vector representation of words are described. A comparison of the LDA, PLSA, ARTM models in determining the topics of the text of the posts. The experiments showed that the ARTM model handles this task best.

Ключевые слова: тематическое моделирование, социальная сеть Keywords: topic modeling, social network

Введение

Развитие интернета и появление социальных сетей привело к тому, что в свободном доступе появилось большое количество персональных данных: социально-демографические признаки, информация об уровне дохода и интересах, фото-, видео-, аудиоматериалы, заметки о путешествиях и т.д. Благодаря этому появилась возможность решать различные задачи, многие из которых до этого невозможно было решить из-за недостатка данных.

В России и странах СНГ большой популярностью пользуется социальная сеть "Вконтакте". Ежедневно пользователи создают миллионы постов и оставляют миллиарды комментариев, поэтому для многих компаний встает задача собрать эти данные, проанализировать и получить полезную информацию. Например, это может быть полезно

для контроля имиджа компании (анализ уровня внимания и лояльности к бренду, выявление угроз репутации компании), повышения эффективности PR-кампаний (выявление лидеров мнений и важных тематических сообществ, оценка эффективности разовых PR-мероприятий), улучшения продуктов и услуг (выявление характеристик продукта значимых для целевой аудитории, оперативное выявление технических проблем с продуктом), повышения качества обслуживания и лояльности клиентов (мониторинг обратной связи от клиентов, помощь клиентам в удобных для них каналах связи) и другом.

Для большинства этих задач необходимо анализировать текст. Методы обработки естественного языка сейчас активно развиваются. В том числе активно развивается тематическое моделирование - метод, который позволяет выделить темы из большой текстовой коллекции.

В данной статье дано описание принципов тематического моделирования, описана степень изученности темы. Также показано сравнение различных тематических моделей на текстах постов пользователей социальной сети "Вконтакте".

Тематическое моделирование Тематическое моделирование - одно из современных направлений обработки

естественного языка (natural language processing, NLP), активно развивающееся с конца 90-х годов. Тематическая модель позволяет описать тематику коллекции текстовых документов - к каким темам относится каждый документ, и из каких слов состоит каждая тема.

С помощью данной модели текст произвольной длины может быть преобразован в векторное представление, из которого можно узнать, какая доля каждой из тем содержится в данном тексте. Похожую задачу решают модели векторных представлений слов (word embedding), предложений и документов, однако в них координаты векторов не имеют смысловой интерпретации.

Тематическое моделирование похоже также на кластеризацию документов. Отличие в том, что при кластеризации документ целиком относится к одному кластеру, тогда как тематическая модель осуществляет мягкую кластеризацию, разделяя документ между несколькими кластерами-темами. Тематические модели также позволяют кластеризовать слова по темам. Это позволяет обходить проблемы синонимии и полисемии слов. Синонимы, употребляемые в схожих контекстах, группируются в одних и тех же темах. Многозначные слова и омонимы, наоборот, распределяют свои вероятности по нескольким семантически не связанным темам. Степень изученности темы Тематическое моделирование — это один из способов представления текста в виде вектора. Другие способы также активно исследуются и развиваются.

Самые первые модели векторного представления слов были основаны на частотных распределениях слов. Исследовались разные подходы - как применение совстречаемости слов (Latent Semantic Analysis, LSA) [1], так и использование одних только частот (Latent Semantic Analysis, LSA) [1], не учитывая порядок следования слов в документе.

С развитием нейронных сетей большую популярность получили модели обучаемых векторных представлений слов. Основная идея таких подходов - получить такое представление слова или документа в векторном пространстве, где похожие слова имеют близкие координаты. Интересен тот факт, что отношения между словами связаны с операциями над их векторами. Например, вектор («король») - вектор («мужчина») + вектор («женщина») = вектор («королева») и т. д. Получаемые векторные представления можно использовать для любых задач обработки текста.

Наиболее известным представителем таких моделей является семейство моделей word2vec [4]. Также существуют нейросетевые методы, в которых векторные представления были получены в качестве побочного продукта при решении другой задачи. К таким задачам можно отнести задачу генерации текста (BERT [5], ELMo [6]), предсказания контекста по центральному слову (Skip-Gram [7], SGNS [8] или слова по контексту (CBOW [7]).

Тематическое моделирование же развивалось параллельно. В 1999 году Хоффман предложил модель вероятностного латентного семантического анализа [9] (PLSA). Входными данными модели являются матрица документов-слов и количество кластеров (тем). На выходе же модель выдает распределение слов в темах и тем в документах. Как правило, темы являются хорошо интерпретируемыми, т.е. эксперт можно понять, о чем данная тема, посмотрев на список наиболее вероятных слов.

Улучшением предыдущего подхода стало латентное размещение Дирихле (Latent Dirichlet Allocation, LDA) [10] - одна из самых известных и широко применяемых тематических моделей. Эта модель ввела ограничение на распределение вероятностей слов, применяя распределение Дирихле. С течением времени были разработаны сотни расширений LDA для моделирования явлений естественного языка и включения дополнительной информации об авторах, времени, ярлыках, категориях, цитатах, ссылках и т. д.

Следующим важным шагом стало появление альтернативного подхода - аддитивной регуляризации тематических моделей (АРТМ) предлагается в работе [11]. ARTM расширяет базовую модель PLSA общим механизмом регуляризации, который позволяет напрямую задавать желаемые свойства в целевой функции. Большим преимуществом АРТМ является его гибкость. Обучив пробную модель в виде стандартной LDA или ARTM без регуляризаторов, исследователь может сформулировать, чего не хватает в текущей модели. В большинстве случаев библиотека BigARTM позволяет использовать встроенные регуляризаторы для быстрого и эффективного удовлетворения набора требований к модели.

Сравнение моделей LDA, PLSA, ARTM

Для сравнения моделей LDA, PLSA и ARTM были собраны 200 тыс. текстов постов пользователей социальной сети "Вконтакте". Сбор данных осуществлялся с помощью открытого API (Application Programming Interface) социальной сети. Данная система позволяет разработчикам получать доступ к общедоступной информации Вконтакте - пользователи, их друзья и подписчики, посты, музыка, изображения, видео и т.д.

Для всех текстов была проведена лемматизация - приведение каждого слова в документе к его нормальной форме. Также были удалены стоп-слова — это частые слова, встречающиеся в текстах любой тематики. Они

бесполезны для тематического моделирования и могут быть отброшены. К ним относятся предлоги, союзы, числительные, местоимения, некоторые глаголы, прилагательные и наречия.

Одна из проблем при сравнении нескольких моделей тематического моделирования - оценка качества. Как и у любого метода обучения "без учителя", у нас нет информации о правильных или неправильных темах каждого документа. Наиболее распространенным критерием качества тематической модели является перплексия (perplexity), используемая для оценивания моделей языка в компьютерной лингвистике. Это мера несоответствия или удивленности модели тем словам, которые мы наблюдаем в документах коллекции.

Также для оценки интерпретируемости темы смотрят на топ-слова в темах - список из заданного числа слов с наибольшей вероятностью по каждой теме. Для хорошо интерпретируемой темы, при добавлении лишнего слова в список топ-слов сторонний человек должен с легкостью его определить.

Для всех моделей было задано количество тем - 20. Осуществлялось 40 проходов по коллекции. Для модели АРТМ вводился дополнительный регуляризатор сглаживания матрицы

распределений слов в темах.

График изменения перплексии для всех моделей в процессе обучения представлен на рисунке 1. Для большей наглядности из графика удалены значения перплексии на первых пяти итерациях.

Рисунок 1 - изменение перплексии в процессе обучения моделей LDA, PLSA, ARTM

Итоговые значения перплексии даны в таблице 1. Топ-слова некоторых тем каждой модели даны в таблице 2.

Таблица 1.

Значения перплексии для моделей LDA, PLSA, ARTM

Модель Значение перплексии

LDA 3444.700

PLSA 4166.408

ARTM 4031.688

Таблица 2.

Топ-слова для 1, 8 и 9 темы для моделей LDA, PLSA, ARTM_

Модель Тема Топ-слова

LDA topic_1 который, организм, врач, мочь, день, рука, тело, мышца, болезнь, здоровье

topic_8 год, который, фильм, жизнь, история, становиться, время, жить, самый, мир

topic_9 год, россия, который, страна, человек, власть, российский, область, народ, город

PLSA topic_1 состояние, здоровье, система, врач, случай, организм, мозг, помогать, являться, болезнь

topic_8 жизнь, человек, становиться, жить, который, год, мир, просто, оставаться, семья

topic_9 россия, год, страна, власть, право, народ, российский, закон, область, тысяча

ARTM topic_1 состояние, врач, здоровье, система, организм, мозг, помогать, случай, болезнь, являться

topic_8 жизнь, человек, становиться, жить, который, год, мир, уходить, оставаться, оказываться

topic_9 россия, год, страна, власть, народ, право, российский, закон, область, тысяча

Из данных результатов можно сделать вывод, что использование модели АРТМ и добавление регуляризаторов не дает существенного улучшения определения тематик для постов пользователей в социальной сети "Вконтакте".

Заключение

Рассмотрены основы тематического моделирования, базовые модели. Исследована степень изученности темы векторного представления слов и текстов.

Проведено сравнение моделей LDA, PLSA, ARTM на текстах постов пользователей социальной сети "Вконтакте". Модель LDA показала лучшее значение перплексии, но она дает менее интерпретируемый список топ-слов. Модели PLSA и ARTM показали примерно одинаковый результат по интерпретируемости, но ARTM показала себя лучше по перплексии.

Библиографический список

1.Indexing by latent semantic analysis. / Scott Deerwester, Susan T. Dumais, George W. Furnas et al. // Journal of the American Society for Information Science 41. — 1990. — Pp. 391-407

2.Lund Kevin, Burgess Curt. Producing High-Dimensional Semantic Spaces from Lexical CoOccurrence // Behavior Research Methods, Instruments, & Computers. — 1996. — Vol. 28. — Pp. 203-208.

3.Tumey Peter D., Pantel Patrick. From Frequency to Meaning: Vector Space Models of Semantics // Journal of Artificial Intelligence Research, (2010), 37, 141-188. — 2010.

4.Distributed Representations of Words and Phrases and their Compositionality. / Tomas Mikolov, Ilya Sutskever, Kai Chen et al. // NIPS / Ed. by Christopher J. C. Burges, L eon Bottou, Zoubin Ghahramani, Kilian Q. Weinberger. — 2013. — Pp. 3111-3119.

5.Bert: Pre-training of deep bidirectional transformers for language understanding / J. Devlin, M.-W. Chang, K. Lee, K. Toutanova // arXiv preprint arXiv:1810.04805. — 2018.

6.Deep contextualized word representations / M. E. Peters, M. Neumann, M. Iyyer et al. // arXiv preprint arXiv:1802.05365. — 2018

7.Efficient estimation of word representations in vector space / T. Mikolov, K. Chen, G. Corrado, J. Dean // arXiv preprint arXiv:1301.3781. — 2013.

8.Distributed representations of words and phrases and their compositionality / T. Mikolov, I. Sutskever, K. Chen et al. // Advances in neural information processing systems. — 2013. — Pp. 3111-3119.

9.Hofmann Thomas. Probabilistic Latent Semantic Analysis // Proceedings of the Fifteenth Conference on Uncertainty in Artificial Intelligence. — UAI'99. — San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 1999. — Pp. 289-296.

10.Blei David M., Ng Andrew Y., Jordan Michael I. Latent dirichlet allocation // Journal of Machine Learning Research. — 2003. — Vol. 3. — Pp. 9931022.

11.Воронцов К. В. Аддитивная регуляризация тематических моделей коллекций текстовых документов // Доклады РАН. — 2014. — Т. 456, № 3. — С. 268-271.

МОНИТОРИНГ И НОРМИРОВАНИЕ ВИБРАЦИИ ДИНАМИЧЕСКОГО ОБОРУДОВАНИЯ

НА ХИМИЧЕСКОМ ПРЕДПРИЯТИИ_

Шайхатаров Инсаф Фаисович

магистрант,

ФГБОУ ВО «Казанский национальный исследовательский технологический университет» (420015, Россия, Республика Татарстан, г. Казань, ул. К. Маркса, 68)

Заляев Ринат Равилевич кандидат технических наук, (420074, Россия, Республика Татарстан, г. Казань, ул. Троицкий лес, 29, А)

MONITORING AND RATIONING VIBRATION OF DYNAMIC EQUIPMENT

AT A CHEMICAL PLANT

Shaykhatarov Insaf Faisovich

graduate student, Kazan National Research Technological University (420015, Russia, Republic of Tatarstan, Kazan, 68 K. Marx St.)

Zalyaev Rinat Ravilevich Candidate of Technical Sciences, (420074, Kazan, Russia, Republic of Tatarstan 29, Troitsky les str., 29A).

DOI: 10.31618/ESU.2413-9335.2020.2.75.828

АННОТАЦИЯ

Статья посвящена вопросам нормирования параметров вибрации при вибрационной диагностике динамического оборудования (компрессоров, насосов) на примере крупного химического предприятия. Проведен анализ нормативной и технической документации, рассмотрены критерии оценки вибрации.

ABSTRACT

The article is devoted to the questions of normalization of vibration parameters at vibration diagnostics of dynamic equipment (compressors, pumps) by the example of large chemical enterprise. The analysis of normative and technical documentation is carried out, vibration assessment criteria are considered.

Ключевые слова: вибрация, мониторинг, вибродиагностика, динамическое оборудование, нормируемые параметры, надежность эксплуатации оборудования, техническое состояние оборудования.

Keywords: vibration, monitoring, vibrodiagnostics, dynamic equipment, normalized parameters, equipment operation reliability, technical condition of the equipment.

На предприятиях химической

промышленности используется большое количество различных машин (насосов, компрессоров и др.), которые являются источниками вибрации. Контроль вибрации этих машин имеет важное значение для поддержания их работоспособного технического состояния, а также снижения вредного воздействия вибрации на персонал, работающий на производстве. В связи с этим нормирование параметров вибрации является актуальной задачей, направленной на обеспечение надежности эксплуатации машин.

Мониторинг вибрации оборудования широко используется на многих предприятиях в настоящее время. Вновь монтируемые компрессоры и другое важное оборудование, как правило, оснащаются стационарными системами контроля вибрации, связанными с общей системой управления и контроля эксплуатационных параметров оборудования [1].

В данной статье рассмотрены некоторые вопросы повышения надежности эксплуатации оборудования путем контроля и нормирования параметров вибрации, которые применяются на

предприятиях химической промышленности. Рассмотрены основные стандарты, применяемые для нормирования вибрации при эксплуатации динамического оборудования.

Как правило, допустимый уровень вибрации для каждой единицы динамического оборудования устанавливается в соответствии с документацией завода - изготовителя (паспортом на изделие).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Однако, на многих предприятиях до сих пор применяется большое количество машин, введенных в эксплуатацию десятки лет назад. Оригинальные паспорта или требования по вибрации на них зачастую отсутствуют, поэтому, как правило, приходится устанавливать предельные нормы вибрации в соответствии с современными международными и национальными стандартами [1].

На ряду с мониторингом вибрации на предприятии должен быть внедрен комплекс мер, обеспечивающий высокое качество обслуживания и ремонта оборудования, включающий в себя наличие технических условий на ремонт оборудования, систему входного контроля качества запасных частей к оборудованию, систему

i Надоели баннеры? Вы всегда можете отключить рекламу.