АНАЛИТИЧЕСКИЕ ИНСТРУМЕНТЫ ОЦЕНКИ НОВОСТНЫХ ТЕКСТОВ

Акоева Инесса Георгиевна; Пилипенко Александр Игоревич; Булдыбаев Тимур Керимбекович

Аналитические инструменты оценки новостных текстов

Акоева Инесса Георгиевна,

главный аналитик Департамента прикладных исследований и разработок, АО «Информационно-аналитический центр» МОН РК

Пилипенко Александр Игоревич,

инженер-программист Департамента прикладных исследований и разработок, АО «Информационно-аналитический центр» МОН РК E-mail: [email protected].

Булдыбаев Тимур Керимбекович,

директор Департамента прикладных исследований и разработок, АО «Информационно-аналитический центр» МОН РК

E-mail: [email protected]

В статье рассматриваются вопросы применения существующих или разработки новых аналитических инструментов оценки текстовой информации новостных источников казахстанского сегмента публикаций СМИ. В статье представлена разработка собственного аналитического инструмента разметки корпуса новостных текстов по признакам тональность (позитивная/нейтральная/негативная), объективность, наличие манипулятивного контента. Результаты разметки используются для экспериментального подтверждения применимости мультагентного подхода при работе с корпусами текстов и для оценки работы алгоритмов машинного обучения при формировании аналитической информации, заданной пользователем тематики. Разработка данного аналитического инструмента является неотъемлемой частью комплекса работ по составлению, оценке корпуса новостных текстов, оценке влияния новостей на социум по информативным признакам и для обеспечения корректности работы выработанных алгоритмов машинного обучения при автоматизированном анализе социально-значимых публикаций.

Ключевые слова: корпус, аналитические инструменты, влияние СМИ

Данная статья подготовлена в рамках реализации ПЦФ № BR05236839 Комитета науки Министерства образования и науки Республики Казахстан

Введение

Неотъемлемой частью проектируемой информационной системы оценки влияния открытых текстовых информационных источников на социум являются аналитические инструменты, позволяющие анализировать текстовую информацию под нужны конечных пользователей.

Растущие объемы и потоки новостной информации требуют применения современных подходов к хранению, обработке, систематизации и анализу. При этом предоставление результатов анализа в удобном и информативном формате для лиц принимающих решения является актуальным. Помимо этого, применение автоматизированных аналитических инструментов актуально практически для всех сфер жизнедеятельности государства и общества. Подобные инструменты помогают в поиске, организации, извлечении и репрезентации необходимых данных из большого потока информации. Основы подобного анализа, приведшего к разработке первых аналитических инструментов, были заложены еще в 1958 году старшим инженером IBM Хансом Петером Луном, который построил интеллектуальную систему для бизнеса [1]. Сейчас извлеченные и систематизированные данные, будь то статистика, отслеживание тенденций или возникшие закономерности в последствии используются для принятия решений в зависимости от назначения соответствующего аналитического инструмента.

Любой процесс анализа данных неразрывно связан с двумя методами анализа - количественным и качественным. Процесс анализа можно разделить на: (1) сбор данных; (2) обработка данных; (3) построение модели; (4) обучение модели; (5) апробация модели. Таким образом анализ данных предназначен для решения различных задач путем добычи новых данных (Data Mining) с использование математических и компьютерных алгоритмов и моделирования данных. А так как целью данного исследования является анализ потока новостных текстов, объединенного в корпуса текстовой информации - наличие аналитических инструментов с удобным для конечного пользователя интерфейсом становится необходимым.

Обзор существующих инструментов

Необходимость разработки и применения аналитических инструментов продиктована растущими объемами информации, которую необходимо собирать, анализировать и интерпретировать для принятия своевременных решений при ведении бизнеса, реагировании на чрезвычайные ситуации,

сз о со "О

1=1 А

—I

о

сз т; о m О от

З

ы о со

о с

U

сэ см о см

снижения социальной напряженности. Учитывая, что изначально такие инструменты применялись в основном в бизнесе, соответственно наиболее представлена линейка инструментов именно для принятия решений в бизнесе. В большинстве своем инструменты являются коммерческими продуктами такими как Microsoft BI, Xplenty, Hubspot, Tableuau Public, Rapid Miner, KNIME, но существуют и бесплатные - Orange, OpenRefine. Привлекательность для пользователя заключается в предлагаемых возможностях, среди которых можно отметить удобство интуитивно-понятного интерфейса, облачные, физические иди гибридные средства хранения данных, аналитические возможности в том числе с использованием машинного обучения, безопасность данных и высокую скорость обработки.

В академической среде к аналитическим инструментам можно отнести реферативные и полнотекстовые базы данных научной информации такие как Web of Science и Scopus. Функционал таких баз не ограничивается хранением и поиском, но также включает в себя возможности оценки влияния и качества предоставляемой информации на основе метрик таких как рейтинги журналов импакт-фактор, SJR, нормализированный показатель цитируемости (SNIP), квартили, индекс Хирша, инструменты визуализации публикационной активности, расширенные возможности поиска журналов, статей, авторов, а также сравнение журналов по результатам анализа результатов поиска. Подобные базы данных работают на основе богатой архитектуры метаданных, к примеру, объем базы Scopus составляет 3,7 терабайта включая 1,4 трлн ссылок и содержит 16 млн. профилей авторов [2]. Такие аналитические инструменты помогают отслеживать возникающие в области науки тренды, в поиске экспертов в той или иной области, поиске наиболее значимых исследований. Обладая богатыми возможностями поиска информации, ее сортировки и экспорта подобные базы данных значительно облегчают ориентирование в больших потоках данных.

Что касается непосредственно инструментов для решения задач исследования по оценке влияния открытых текстовых источников на социум, они в основном строятся на анализе тональности. Одной из первых попыток определения тональности была попытка английского печатника Генри Денама еще в 1580 году с помощью ввода в обиход специального символа, который бы обозначал сарказм [3], однако символ так и не был введен в массовый обиход и по настоящее время. Цифровая среда же представляет массу возможностей для ведения бизнеса, предоставления товаров и услуг онлайн. Особенно востребованными такие услуги стали в условиях пандемии корона-вируса, но и до ее возникновения свое развитие уже получили такие гиганты торговли как Amazon и AliExpress, которые объединяют на своей платформе огромное количество товаров и продавцов, имеющих определенный рейтинг популярности и доверия на основе оценок и комментариев

пользователей. Стоит отметить, что анализ оставленных комментариев необходим для оценки популярности товаров, услуг, а также принятия решений и выработки стратегий для дальнейшего развития. Именно здесь находят применение инструменты по оценке тональности для определения негативных и позитивных отзывов. Но сфера применения таких инструментов не ограничивается торговыми площадками и может быть транслирована на анализ тональности СМИ и социальных сетей.

Инструменты анализа тональности позволяют извлечь элементы и уловить особенности построения текстовой информации для автоматизированного и корректного вывода получаемой информации в соответствующие категории. К наиболее популярным инструментам анализа тональности стоит отнести HubSpot's Service Hub, Quick Search, Repustate, Lexalytics, Critical Mention, Brandwatch, Social Mention, Sentiment Analyzer, MAXG, Social Searcher, Rosette. Все эти инструменты позволяют автоматически анализировать и разделять тексты (в основном применительно к отзывам о товарах и услугах) по тональности на позитивные, негативные и нейтральные. Также они обладают возможностями сбора, поиска, обработки естественного языка, кастомизации интерфейса приложения и вывода визуализированной информации по итогам анализа.

Среди перечисленных инструментов стоит выделить Critical Mention, который позволяет анализировать новости. Однако его работа строится на анализе упоминаний определенного бренда или ключевого слова. Такие аналитические инструменты предназначены для анализа тональности и несмотря на обширный функционал не позволяют в полной мере применять его в работе с новостными публикациями при оценке их влияния на социум, когда триггерных ключевых слов, имен и организаций большое количество.

Помимо инструментов для анализа тональности текстов развиваются инструменты определения недостоверных, фейковых новостей, работа которых основывается на анализе корпуса новостных текстов с применением инструментов добычи сырых данных и алгоритмов машинного обучения. К таким инструментам относятся Google Reverse Image Search, TinEye, FotoForensics, Forensically, InVIDVerification Plugin, работающие с графической информацией, а также системы автоматизированного анализа текстовой информации, которые предоставляются в виде плагинов для интернет-браузеров. Среди последних можно отметить NewsCracker, Fake News Blocker, KnowNews, Fake News Detector AI и др., которые работают по принципу анализа контента, метаданных, иногда потенциально манипулятивного контента помечая подозрительное содержимое в новостях [4].

В тоже время стоит отметить ряд исследований в области анализа тональности, обнаружения фейковых новостей и манипулятивного контента [5, 6, 7], результаты которых представлены в виде

алгоритмов машинного обучения на основе морфологического и лексического анализа, не имеющих интерфейса и соответственно не доступных большинству потребителей новостей. Таким образом решение вопроса создания аналитического инструмента, позволяющего визуализировать обработанные результаты, является неотъемлемой частью исследования.

Выработка собственных аналитических инструментов

На разных этапах работы в рамках данного исследования уже были выработаны закономерности, правила с привлечением экспертов-лингвистов и алгоритмы работы по распознаванию тональности, объективности и манипулятивности контента текстовой информации прошедшие апробацию на ряде размеченных тестовых корпусов русскоязычной новостной информации казахстанского сегмента СМИ. Помимо этого, была разработана методика применения мультиагентного подхода к формированию, экспертной разметке и классификации текстового корпуса, и ее экспериментальному подтверждению. Это привело к разработке веб-ресурса, который помимо основного функционала разметки текстов позволяет осуществлять мониторинг результатов такой разметки с их последующей визуализацией.

Частично такой подход к работе с текстовыми корпусами применялся в рамках создания кра-удсорсингового ресурса Linis Crowd [8], Amazon Mechanica Turk (MTurk), CrowdFlower, Яндекс.То-лока [9]. При этом существенное отличие разработанного в рамках исследования ресурса заключается в расширении анализа текстов не только по тональности, но также по объективности и наличию манипулятивного содержания, а также наличию возможности проведения опросов по разметке корпусов с включением дополнительных метаданных.

Работа предлагаемого инструмента является частью комплекса работ, проводимых с 2018 года.

Этапы работы включали в себя разработку методики оценки влияния новостей на социум на основе анализа новостных публикаций и анализа ее эффективности. Были определены информационные признаки, характеризующие поведение потребителей новостей, возможности манипулирования с использованием языковых и лексических приемов, масштабах и закономерностей распространения новостей, степени доверия аудитории, объективность публикаций и их тональность. Для этой работы впервые был сформирован самый большой на данный момент корпус текстов казахстанского сегмента новостей (более 2 млн публикаций с постоянным парсингом), разметка которого проводится машинными алгоритмами на постоянной основе и корректность которых подтверждается и корректируется результатами работы

Одним из инструментов разработанного ресурса является модуль мультиагентного анализа текстовых материалов, которая содержит краткую инструкцию для пользователя, предлагаемый к оценке текст, случайно выбранный из общего корпуса и варианты его разметки (рисунок 1).

Рис. 1. Разметка текстов на веб-ресурсе

Мониторинг результатов разметки осуществляется через модуль мониторинга результатов разметки и автоматического формирования отчетности, который позволяет визуализировать полученные данные (рисунок 2).

о о со

"О

13 А -1 о

о т; о m О от

З

со о со

Рис. 2. Модуль мониторинга результатов разметки и автоматического формирования отчетности

о с

U

сэ см о см

Результаты разметки используются для экспериментального подтверждения применимости мультагентного подхода к формированию, экспертной разметки и классификации корпуса. Это обусловлено тем, что автоматизация разметки является оптимальным решением для анализа больших массивов текстовых данных, однако при ее использовании сохраняется порядка 10-15% погрешности. Разметка, предусматривающая оценку аспектов текста и оценочных суждений о его содержании, на современном этапе развития корпусной лингвистики не может обходиться только программными и технологическими решениями и требует человеческого вмешательства. О.Н. Ля-шевской и соавторами было отмечено, что на данный момент «не существует компьютерных программ, которые были способны заменить человека на этом направлении и обеспечить должный уровень адекватности» [10].

Полученные в результате разметки пользователями-добровольцами данные в дальнейшем используются для обеспечения максимальной сходимости между экспертами и результатами работы выработанных алгоритмов машинного обучения. Что в свою очередь позволяет значительно упростить и ускорить обработку большого корпуса новостных текстов и выводить аналитические результаты на дашборды по социально-значимым и наиболее актуальным темам.

Заключение

В заключении стоит отметить, что разрабатываемые аналитические инструменты позволяют решать ряд задач, непосредственно связанных с оценкой влияния открытых текстовых источников на социум. При этом стоит учитывать то, что полностью автоматизированные инструменты пока не приводят к максимально точному распознаванию и классификации текста по критериям, будь то тональность, объективность, наличие манипулятивного контента или определение фейковых новостей. Стоит также отметить, что максимальный эффект достижения поставленных задач достигается через комбинацию экспертных усилий и современных технологий с постепенным уменьшением роли эксперта на этапе формирования действующих моделей с приобретением роли корректировщика информационной системы в зависимости от трансформирующихся старых или постановки совершенно новых задач.

В то же время полученные на данный момент результаты применения разработанных инструментов в достаточно полной мере могут предоставить аналитический материал для оценки социальных настроений, реакций и своевременного реагирования на потенциальные конфликты.

Таким образом, комбинация разработанных правил, словарей, закономерностей с подходами в корпусной лингвистике и технологий интеллектуального анализа позволяют оперативно обрабатывать большие наборы данных, а их визуализация

существенно упрощает процесс интерпретации этих данных для своевременного принятия управленческих решений.

Литература

1. Luhn H.P. A Business Intelligence Systems // IBM Journal of Research and Development.- 1958. -P. 314-319.

2. Leading in quality and quantity. [Электронный ресурс].- 2018. - URL: https://www.elsevier.com/ solutions/scopus/how-scopus-works/high-quality-data. (Дата обращения 14.09.2020)

3. Brewerton P. Denham, Henry (fl. 1556-1590). -Oxford Dictionary of National Biography, Oxford University Press, 2004.

4. McCarthy B. Fact-checking browser extensions hold promise but need further development // Duke Reporters' LAB.- 2018.

5. Xu K., Wang F., Wang H., and Yang B. A First Step Towards Combating Fake News over Online Social Media. - Springer, Cham, 2018. - P. 521531.

6. Saikh T., Anand A., Ekbal A., and Bhattacharyya P. A Novel Approach Towards Fake News Detection: Deep Learning Augmented with Textual Entailment Features. - Springer, Cham, 2019. - P. 345-358.

7. DeyA., Rafi R.Z., Hasan Parash S., Arko S.K., and Chakrabarty A. Fake News Pattern Recognition using Linguistic Analysis // 7th Int. Conf. Informatics, Electron. Vis. 2018 2nd Int. Conf. Imaging, Vis. Pattern Recognit. - IEEE, 2018. - P. 305-309.

8. Koltsova O.Y., Alexeeva S.V., Kolcov S.N. An Opinion Word Lexicon and a Training Dataset for Russian Sentiment Analysis of Social Media // Компьютерная лингвистика и интеллектуальные технологии.- 2016. - С. 277-287.

9. Гилязев Р.А., Турдаков Д.Ю. Активное обучение и краудсорсинг: обзор методов оптимизации разметки данных // Труды ИСП РАН.-2018.- № 3(2). - С. 215-250. DOI: 10.15514/ ISPRAS-2018-30(2)-11.

10. Ляшевская О.Н., Плунгян В.А., Сичинава Д.В. О морфологическом стандарте Национального корпуса русского языка // Научно-техническая информация. Сер. 2: Информационные процессы и системы.- 2005.- № 6. -С. 111-135.

ANALYTICAL TOOLS FOR NEWS ASSESSMENT

Akoyeva I.G., Pilipenko A.I., Buldybayev T.K.

Information-Analytical Center, JSC, Nur-Sultan

The article discusses the issues of using existing or developing new analytical tools for evaluating text information of news sources in the Kazakh segment of media publications. The article presents the development of own analytical tool for marking up the corpus of news texts based on sentiment (positive/neutral/negative), objectivity, and the presence of manipulative content. The markup results are used to experimentally confirm the applicability of the multi-agent approach for work with text corpora and to assess the operation of machine learning algorithms during generation of analytical information on a user-defined topic. The development of this analytical tool is an integral part of the complex of works on compiling, evaluating the corpus of news texts, assessing the impact of news on society by different informative features and ensuring the correct operation of

the developed machine learning algorithms in the automated analysis of socially significant publications.

Keywords: corpus, analytical tools, media influence

References

1. Luhn H.P. A Business Intelligence Systems // IBM Journal of Research and Development.- 1958. - P. 314-319.

2. Leading in quality and quantity. [Electronic resource].- 2018. -URL: https://www.elsevier.com/solutions/scopus/how-scopus-works/high-quality-data. (retrieved: 14.09.2020)

3. Brewerton P. Denham, Henry (fl. 1556-1590). - Oxford Dictionary of National Biography, Oxford University Press, 2004.

4. McCarthy B. Fact-checking browser extensions hold promise but need further development // Duke Reporters' LAB.- 2018.

5. Xu K., Wang F., Wang H., and Yang B. A First Step Towards Combating Fake News over Online Social Media. - Springer, Cham, 2018. - P. 521-531.

6. Saikh T., Anand A., Ekbal A., and Bhattacharyya P. A Novel Approach Towards Fake News Detection: Deep Learning Augmented with Textual Entailment Features. - Springer, Cham, 2019. - P. 345-358.

7. Dey A., Rafi R.Z., Hasan Parash S., Arko S.K., and Chakrabar-ty A. Fake News Pattern Recognition using Linguistic Analysis // 7th Int. Conf. Informatics, Electron. Vis. 2018 2nd Int. Conf. Imaging, Vis. Pattern Recognit. - IEEE, 2018. - P. 305-309.

8. Koltsova O.Y., Alexeeva S.V., Kolcov S.N. An Opinion Word Lexicon and a Training Dataset for Russian Sentiment Analysis of Social Media // Computational Linguistics and Intelligent Technologies.- 2016. - S. 277-287.

9. Gilyazev R.A., Turdakov D. Yu. Active learning and crowd-sourcing: a review of data markup optimization methods // Proceedings of ISP RAS.- 2018. - No. 3 (2). - S. 215-250. DOI: 10.15514 / ISPRAS-2018-30 (2) -11.

10. Lyashevskaya ON, Plungyan VA, Sichinava DV On the morphological standard of the National Corpus of the Russian language // Scientific and technical information. Ser. 2: Information processes and systems.- 2005. - No. 6. -S. 111-135.

АНАЛИТИЧЕСКИЕ ИНСТРУМЕНТЫ ОЦЕНКИ НОВОСТНЫХ ТЕКСТОВ Текст научной статьи по специальности «СМИ (медиа) и массовые коммуникации»

ANALYTICAL TOOLS FOR NEWS ASSESSMENT

Текст научной работы на тему «АНАЛИТИЧЕСКИЕ ИНСТРУМЕНТЫ ОЦЕНКИ НОВОСТНЫХ ТЕКСТОВ»