Перспективные методы классификации текстов электронных СМИ

Мотовских Л.В.

УДК 81-139

Л. В. Мотовских

аспирант кафедры прикладной и экспериментальной лингвистики факультета английского языка Московского государственного лингвистического университета; е-таЛ: Leon@motovskikh.ru

ПЕРСПЕКТИВНЫЕ МЕТОДЫ КЛАССИФИКАЦИИ ТЕКСТОВ ЭЛЕКТРОННЫХ СМИ

В статье анализируются перспективные методы классификации текстов электронных СМИ. Подробно рассматриваются методы латентно-семантического анализа (далее - ЛСА) и вероятностного латентно-семантического анализа (далее -ВЛСА) ввиду их достаточной изученности и удобства практического применения. Также приводится краткое описание этих методов и описываются возможные области их применения в сфере электронных СМИ и гипертекста.

Ключевые слова: классификация текстов; латентно-семантический анализ; электронные СМИ.

L. V. Motovskikh

Postgraduate Student, Department of AppLied and Experimental Linguistics, FacuLty of the English Language, Moscow State Linguistic University; e-maiL: Leon@motovskikh.ru

PROMISING METHODS OF CLASSIFICATION OF ONLINE MEDIA TEXTS

The articLe focuses on promising methods of classification of onLine media texts. In particuLar, the author examines the methods of Latent semantic anaLysis (LSA) and probabiListic Latent semantic anaLysis (PLSA) due to their sufficient coverage in a series of studies and ease of practicaL appLication. In addition, the articLe provides a brief description of these methods and iLLustrates their practicaL appLication in the spheres of onLine media and hypertext.

Key words: text cLassification; Latent semantic anaLysis; onLine media.

Введение

С развитием Интернета и ростом числа пользователей Сети увеличивается количество электронных средств массовой информации. На конкурентном рынке для увеличения числа читателей и посетителей сайта электронные СМИ вынуждены вводить дополнительные блоки информации. Одним из популярных способов становятся блоки похожих или рекомендуемых читателю статей.

При создании таких блоков часто используется классификация текстов вручную: для каждой статьи выбирают категорию и выделяют ключевые слова. При появлении новой статьи происходит сравнение ключевых слов и темы, после чего статья попадает в ту или иную категорию.

По сравнению с классификацией вручную, автоматическая имеет несколько важных преимуществ: скорость классификации при большом количестве текстов и отсутствие предпочтений при их оценке [Chechelnytskyy 2018].

При этом, если исходные данные недостаточно структурированы, или система категоризации устарела, при классификации вручную требуется повторная и значительно более медленная классификация архивных материалов. С увеличением количества статей в СМИ появляется необходимость добавления новых категорий и рубрик. Как следствие, возникает актуальная проблема автоматической классификации текстов - выявления и группировки похожих по темам текстов [Толмачев, Воронова 2017].

В статье будут рассмотрены методы латентно-семантического анализа (далее - ЛСА) и вероятностного латентно-семантического анализа (далее - ВЛСА). Следует отметить, что это не единственные методы автоматической классификации текста, однако ввиду их достаточной изученности и широкой возможности применения для использования в электронных СМИ были выбраны именно они.

Методы автоматической классификации текста Метод латентно-семантического анализа

Одним из самых эффективных методов автоматической классификации большого количества текстов является ЛСА, который позволяет установить контекстуальные значения слов в тексте и на основе этих значений определить тему текста. Основная идея ЛСА заключается в нахождении связей между представленными в текстах термами -словами или их последовательностями, n-граммами [Landauer, Foltz, Laham 1998].

Метод включает в себя следующие этапы: предобработка текстов, составление матрицы «документы-термы», ее преобразование и использование итоговой матрицы при сравнении текстов. Элементами итоговой матрицы выступают веса, учитывающие частоту использования терма в определенном тексте.

Предобработка анализируемых текстов позволяет сократить размерность будущей матрицы и уменьшить количество шумов. Хотя предобработка текстов тесно связана со сферой использования текстов и языком, на котором изложен текст, существуют основные операции, которые обычно применяются к входным данным:

- лемматизация - приведение слов к их словарной форме;

- удаление служебных частей речи;

- исправление неверно написанных слов;

- стемминг - выделение основы слов в исходных текстах и их использование в качестве анализируемых данных. (Следует отметить, что, например, применительно к текстам на русском и текстам на английском языках операция стемминга неодинаково эффективна из-за разного количества возможных словоформ в языках);

- удаление из исходных данных термов, встречающихся лишь однажды;

- удаление из текстов имен собственных и чисел, если в рамках тем текстов они не несут дополнительной смысловой нагрузки [Рычагов 2017].

По обработанным данным составляется матрица «документы-термы» - двумерная матрица, в которой строки - уникальные слова, выделенные из обработанных текстов, а столбцы - анализируемые тексты. На пересечении документа и терма указывается число включений определенного терма в документе.

Затем полученная матрица преобразуется в матрицу меньшей размерности с помощью сингулярного разложения матрицы (Singular Value Decomposition, SVD). Исходная матрица A раскладывается на произведение трех матриц:

A = USVT, где

U и VT - ортогональные матрицы;

S - диагональная матрица, значения на диагонали которой называются сингулярными коэффициентами матрицы A.

Исходя из правил умножения матриц, строки и столбцы матриц U и VT, соответствующие наименьшим коэффициентам диагональной матрицы S, меньше всего влияют на итоговое произведение. Следовательно, для получения наилучшего приближения A* к исходной матрице A, необходимо в матрицах U и VT оставить только строки и столбцы, соответствующие первым к коэффициентам матрицы S.

Выбор к зависит от поставленной задачи: слишком большое значение может привести к потере вычислительной мощности метода, слишком маленькое, наоборот, приведет к чрезмерному «сглаживанию» и потере разницы между слишком схожими термами. Один из автоматических способов проверки коэффициентов на значимость - установка критического значения, которое сравнивается со всеми коэффициентами (рис. 1).

и, о _п с_ •

0 4 ■

• • • 0,2 п • •

• •

,8 -С ,6 -0 .4 -0 и .2 -0,2 1 0 2 0 4 0 6 0,

• •

• • •

-0.0—

Рис. 1. Пример двумерного (к = 2) графического представления разложения данных [Рычагов 2017]

Красным цветом выделены точки, построенные по матрице текстов и, синим - по матрице термов Vх.

Итоговые матрицы и и Vх изображают на графике, после чего полученные результаты интерпретируют исходя из расположения точек. Как видно из рис. 1, экспериментальные данные текстов образуют две группы, связанные с различными термами. При увеличении к увеличивается размерность пространства, однако суть метода остается той же.

Хотя сингулярное разложение матрицы может привести к ухудшению качества модели, верно подобранное значение позволяет выделить два типа зависимостей в тексте: наиболее часто встречаемые в тексте слова - частотное распределение - и слова, которые часто находятся рядом - совместную встречаемость слов.

Основным недостатком является значительное снижение скорости вычисления при увеличении объема входных данных [Deerwester et al. 1990]. В связи с этим на практике также часто используется разработанный позднее метод вероятностного латентно-семантического анализа.

Таким образом, метод ЛСА удобен для автоматической классификации текстов. Несмотря на имеющиеся недостатки, он показывает хорошие результаты по выявлению темы текстов и может быть использован на практике.

Метод вероятностного латентно-семантического анализа

В качестве развития и улучшения метода ЛСА в 1999 г. был предложен метод вероятностного латентно-семантического анализа PLSA (Probabilistic Latent Semantic Analysis) [Hofmann 1999]. В отличие от метода ЛСА, метод ВЛСА моделирует вероятность совместной встречаемости документа и терма на основе заданного заранее количества возможных тем [Hofmann 2017].

Количество тем c задается исследователем заранее и не вычисляется из собранных данных. К примеру, при анализе текстов на новостном сайте, темами могут выступать рубрики сайта [Толмачев, Воронова 2017].

Предобработка исходных данных проводится по тем же принципам, что и для ЛСА. Также стоит учитывать и выбранные темы, в зависимости от которых эффективнее будет не учитывать при анализе те или иные термы.

Особенность ВЛСА - использование ЕМ-алгоритма (Expectation-maximization) поиска оценок максимального правдоподобия. С его помощью при каждой итерации создаются условные вероятности терминов-тем и тем-документов, которые приближаются до схождения. После этого формируются итоговые оценки, показывающие, к какой теме относится документ.

Применение ЛСА и ПЛСА В электронных средствах массовой информации

Как было уже отмечено ранее, метод ЛСА может быть использован для классификации текстов новостного издания. В этом случае алгоритм может автоматически аннотировать поступающие материалы, присваивая им категорию и выбирая для этого определенную рубрику издания [Толмачев, Воронова 2017].

Другим практическим примером использования ЛСА в новостной среде может стать создание новых тем. Как только количество документов становится достаточно большим в рамках определенной категории, с помощью метода ЛСА возможно определить ключевые термы, присущие определенным документам, и, как следствие, верно выбрать новую категорию для имеющихся документов.

Ключевое и наиболее перспективное применение ЛСА в электронных СМИ - использование в новостных агрегаторах. На основе ЛСА информационные агентства могут предлагать читателям более релевантные материалы. Сами же репортеры на основе данных могут получать только необходимую информацию о конкретном событии и использовать ее для более подробного освещения статьи в других изданиях. Метод также может быть использован для:

- составления тематических подборок к определенному событию. К примеру, экономические или политические последствия по одному и тому же новостному поводу;

- отбора схожих по важности новостей, если в качестве темы будет использовано не название рубрики, а ключевые слова: рубрика «спорт», ключевое слово «финал» для всех проходящих турниров;

- отбора схожих по теме новостей: новость о глобальном потеплении и новость о сокращении популяции белого медведя [Chechelnytskyy 2018].

В гипертексте

Различные страницы одного веб-сайта обычно посвящены одной центральной теме, ссылаясь друг на друга с помощью гиперссылок. Однако само содержание текстов на этих страницах и степень их сходства может значительно различаться [Madrid, Cañas 2011].

В этом случае метод ЛСА может быть использован и для улучшения связанности текстов. Сравнивая документы, можно вычислить,

насколько они связаны друг с другом в рамках термов, и если доля определенного терма невысока, добавить вводный абзац с необходимым термом для увеличения связанности страниц.

ЛСА также может быть использован для выявления предложения, наиболее тесно связанного с темой документа. В дальнейшем это предложение может быть использовано как текст ссылки, ведущей на документ. Использование таких ссылок увеличивает связанность страниц при прочтении материалов веб-сайта [цит. по: Madrid 2010].

Заключение

В статье были описаны методы латентно-семантического анализа и вероятностного латентно-семантического анализа, а также их применение в сферах электронных СМИ и гипертекста. Так, эти методы автоматической классификации могут быть использованы для выделения похожих по теме статей, составления интересующих читателя подборок и улучшения связанности статей.

Стоит отметить, что хотя методы латентно-семантического анализа не являются единственными методами, использующимися для автоматической классификации текстов, спектр их применения и достаточная изученность позволяет получать хорошие результаты при применении их на практике.

СПИСОК ЛИТЕРАТУРЫ

Рычагов С. А. Использование латентно-семантического анализа для автоматической классификации текстов // Международный журнал информационных технологий и энергоэффективности. 2017. № 2. C. 28-33. Толмачев Р. В., Воронова Л. И. Тематическая классификация статей новостного ресурса методами латентно-семантического анализа // Современные наукоемкие технологии. 2017. № 3. С. 55-60. Chechelnytskyy D. Deep neural models to represent news events : dis. University

of Stavanger, Norway, 2018. 78 c. Deerwester S. [et al.]. Indexing by latent semantic analysis // Journal of the

American society for information science. 1990. № 6. С. 391-407. Hofmann T. Probabilistic latent semantic analysis // Proceedings of the Fifteenth conference on Uncertainty in artificial intelligence. Berkeley. CA : Morgan Kaufmann Publishers Inc., 1999. С. 289-296. Hofmann T. Probabilistic latent semantic indexing // ACM SIGIR Forum. 2017. № 2. С. 211-218.

Landauer T. K., Foltz P. W., Laham D. An introduction to latent semantic analysis // Discourse processes. 1998. № 2-3. C. 259-284.

Madrid R. I. Towards a hypertext comprehension model: The Role of reading strategies and cognitive load : guc. University of Granada, 2010. 220 c.

MadridR. I., Cañas J. J. Using latent semantic analysis to enhance the comprehen-sibility of hypertext systems // International Journal of Continuing Engineering Education and Life-Long Learning. 2011. № 4. C. 343-354.

REFERENCES

Rychagov S. A. Ispol'zovanie latentno-semanticheskogo analiza dlja avtomati-cheskoj klassifikacii tekstov // Mezhdunarodnyj zhurnal informacionnyh tehnologij i jenergojeffektivnosti. 2017. № 2. C. 28-33.

Tolmachev R. V., Voronova L.I. Tematicheskaja klassifikacija statej novostnogo resursa metodami latentno-semanticheskogo analiza // Sovremennye nauko-emkie tehnologii. 2017. № 3. S. 55-60.

Chechelnytskyy D. Deep neural models to represent news events : dis. University of Stavanger, Norway, 2018. 78 c.

Deerwester S. [et al.]. Indexing by latent semantic analysis // Journal of the American society for information science. 1990. № 6. S. 391-407.

Hofmann T. Probabilistic latent semantic analysis // Proceedings of the Fifteenth conference on Uncertainty in artificial intelligence. Berkeley. CA : Morgan Kaufmann Publishers Inc., 1999. S. 289-296.

Hofmann T. Probabilistic latent semantic indexing // ACM SIGIR Forum. 2017. № 2. S. 211-218.

Landauer T. K., Foltz P. W., Laham D. An introduction to latent semantic analysis // Discourse processes. 1998. № 2-3. S. 259-284.

Madrid R. I. Towards a hypertext comprehension model: The Role of reading strategies and cognitive load : dis. University of Granada, 2010. 220 s.

Madrid R.I., Cañas J.J. Using latent semantic analysis to enhance the comprehensibility of hypertext systems // International Journal of Continuing Engineering Education and Life-Long Learning. 2011. № 4. S. 343-354.

Перспективные методы классификации текстов электронных СМИ Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Мотовских Л.В.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Мотовских Л.В.

PROMISING METHODS OF CLASSIFICATIONOF ONLINE MEDIA TEXTS

Текст научной работы на тему «Перспективные методы классификации текстов электронных СМИ»