Классификация ключевых слов для описания новостных кластеров

Мартина В.С.; Соколова Д.Ю.; Флуд Д.В.; Крутченко О.В.

Мартина В.С., Соколова Д.Ю., Флуд Д.В., Крутченко О.В., СПбГУ vera_martina@mail.ru, dalinadol@gmail.com, dashaflud@yandex.ru, krutchenko.olga@gmail. com

Аннотация

В данной статье исследуется возможность эффективного выделения ключевых слов из новостных текстов с помощью различных метрик, включая информационные и энтропийные (напр., энтропия и «удивительность»), их последующая классификация этих слов. Цель анализа заключается в выделении разных типов и подтипов ключевых слов на основании анализа названных характеристик, и предсказательной силы 1) для каждого вхождения ключевого слова и 2) обобщенные признаки для ключевого слова в целом (т. е. всех вхождений его в сюжет и/или текст)

1 Введение

Что такое новостной текст? Какова его структура? Множество новостных текстов крайне неоднородно (ср., например, тексты Лента.ру и тексты «Независимой газеты», тексты новостных лент и аналитические обзоры, интервью, полемику (в рамках СМИ)).

Ограничимся для начала, казалось бы, самым простым вариантом новостного текста: текст новостной ленты. Какова структура этого текста? И что такое новостной кластер (тематически максимально однородная коллекция новостных текстов)? Почему мы сразу же вводим понятие новостного кластера? Потому что структуру текста - особенно информационную структуру - можно исследовать, только поместив текст в минимальный контекст. Минимальный контекст для текста в данном случае - кластер. Рассматриваемый вариант исследования структуры текста связан с передаваемой текстом информацией и, прежде всего, с расстановкой акцентов (или весов) темам и подтемам этого текста (см. [ 8]).

Ключевые слова фигурируют в исследованиях довольно часто, главное - в том, что, используя разные представления о том, что такое ключевое слово, мы можем сопоставлять эти разные представления и находить формальные критерии для выделения ключевых слов. Всегда речь идет о выделении

наборов ключевых слов, описывающих текст; в каждом наборе ключевым словам приписываются веса, как правило, они упорядочены по степени значимости. Такой набор ключевых слов представляет свертку текста.

В общем случае - на основании весов слов - мы можем определить ключевые слова: слова, наиболее важные для содержания конкретного текста по отношению к заданному контексту. В рассматриваемом случае ситуация несколько меняется за счет тематической однородности текстов в тематически однородной коллекции (ср. [8], [9]).

В данной работе выделяется две части:

• сначала мы анализируем наборы ключевых слов (или в терминологии А. Антонова «Информационные портреты сюжетов») для описания кластеров (сюжетов), выделенных с помощью технологии группы А. Антонова Галактика-Зум [2] (см. п. 2). Это основная часть работы. Весь кластер рассматривается как аналог новостного текста, что отражает восприятие и анализ новостей через сюжеты (ср. разнообразные агрегаторы новостей, напр., www.webground.su, а также Гугл новости, Яндекс новости и т.д.) (ср. [11]);

• в следующей части нас интересуют наборы ключевых слов для описания единичных текстов в составе максимально тесных кластеров (сюжетов), для чего сопоставляются наборы, полученные в ходе вычислительного эксперимента - КС1, и эксперимента с информантами - КС2 (см. п. 2). Цель анализа заключается в выделении

разных типов и подтипов КС на основании анализа таких характеристик, как энтропия и «удивительность», т.е. информационных характеристик и предсказательной силы 1) для каждого вхождения ключевого слова и 2) обобщенные признаки для ключевого слова в целом (т.е. всех вхождений его в сюжет и/или текст) (см. п.2).

Новые информационные технологии в автоматизированных системах - 2016

2 Материал и методика

Для классификации ключевых слов были выбраны такие метрики, как энтропия и удивительность, т.к. они хорошо определяют частотность слов. Для подсчета удивительности также была необходима условная вероятность.

2.1 Энтропия

Энтропийная характеристика основана на понятии информационная энтропия из теории информации. Пусть Р(х) - вероятность появления в тексте слова х, тогда энтропия рассчитывается по формуле: И = ~lvy2P{x).

В теории информации информационная энтропия - это мера неопределенности или непредсказуемости [1], неопределенность появления какого-либо символа первичного алфавита. В условиях исследования контекстной предсказуемости в качестве элементарного символа выступает единичное словоупотребление, рассматриваемое на основе первичного алфавита, состоящего из словаря всех возможных словоупотреблений корпуса (или текста). В данном вопросе интересна именно частная энтропия, характеризующая только появление конкретного словоупотребления.

2.2 Условная вероятность

Одним из наиболее очевидных способов оценить контекстную предсказуемость является условная вероятность. В теории вероятности условная вероятность - вероятность одного события при условии, что другое событие уже произошло [1]. Перенося данное определение на контекстную предсказуемость, возможно рассчитать вероятность встретить одно слово при условии, что оно идет в тексте после другого. В данной ситуации контекст выступает в роли события, которое уже произошло.

Условная вероятность для контекстной предсказуемости слова рассчитывается по формуле:

с, context)

Р(х\context) =

f(context)

Здесь преимуществом так же является то, что размер контекста никак не ограничен, он выбирается исходя из поставленных задач.

2.3 8игрп8а1

Метрика 8игрЙ8а1 («удивитель-

ность») является еще одним способом оценить контекстную предсказуемость с помощью условной вероятности. Предложенная Х. Левви в 2001 году [2], эта мера стала достаточно стандартной для задач, связанных с оценкой контекстной предсказуемости. Она рассчитывается по формуле:

1-1 1

* Р(х\соШех^

где Р(х| context) - условная вероятность появления слова х в заданном контексте.

Эта метрика универсальна тем, что нет никаких ограничений, накладываемых на контекст. Это может быть как одно слово, так и n-словное сочетание.

Основой для проведения вычислительного эксперимента служила методика с использованием меры TF-iDF [6], [7]; это традиционная статистическая мера, применяемая для оценки важности слова в контексте документа, являющегося частью коллекции документов. Большой вес в TF-iDF получат слова с высокой частотой в пределах конкретного документа и с редкими употреблениями в других документах.

Для проведения эксперимента с информантами использовалась традиционная методика со стандартной инструкцией А. С. Штерн [5]: «Прочитайте текст. Подумайте над его содержанием. Выпишите 10-15 слов, наиболее важных для содержания». В качестве информантов выступали, как правило, студенты гуманитарных специальностей (по 23 информанта для каждой из серий).

В докладе рассматривается следующий материал. Кластер - это коллекция тематически однородных текстов, полученных с помощью ресурса «Галактика Зум»7; все тексты кластеров близки по времени появления и посвящены одному событию [2]. Первый кластер -это приезд А. Шварценеггера в Москву в октябре 2010 года (360 текстов, ок. 110 тыс. то-

где f(x,context) - частота совместной встречаемости слова х после заданного контекста, f (context) - частота встречи контекста.

7 Пользуясь случаем, хотим поблагодарить Александра Антонова и Станислава Баглея за предоставленный материал Галактика-2оош: ga1aktika-zoom.ru, http://www. webground.su

Методы и алгоритмы извлечения ключевых слов

кенов). Рассматриваемый кластер (и составляющие его тексты) имеют четко выстроенный и сравнительно динамичный сюжет. Второй кластер - назначение С. Собянина мэром Москвы (660 текстов, 170 тыс. токе-нов) (см. [8]).В качестве основных ключевых слов для проверки на точность метрик нами были взяты слова из информационных портретов текстов (см. табл. 1).

3 Оценка полученных результатов 3.1 Информационные портреты сюжетов

В табл. 1 представлены словосочетания и слова, отличающие кластер от текстов общего новостного потока. «Проблемой» наборов КС1 является то, что наборы не включают главных действующих лиц: эти слова имеют высокое значение iDF, т.к. все тексты кластера включают наименования этих персон. Впрочем, Шварценеггер имеет сверхвысокую частотность и преодолевает это ограничение, выходит в основной набор ключевых слов, причем с максимальными весами (см. табл. 2).

В табл. 2 представлены ключевые слова (КС2), выделенные информантами для текстов из рассматриваемых кластеров. Вес слова определяется количеством информантов, выделивших это слово.

При подсчете энтропии и «удивительности» все формы слов, образующие лексему на данном этапе, учитывались как одно слово. При анализе учитывались, прежде всего, те ключевые слова, у которых среднее и медиана различались на 1 и больше. Это условный критерий, который позволяет разделить слова на те, у кого предсказательная сила существенно варьирует в зависимости от контекста (они выделены п/ж шрифтом в табл. 3 и 4), и все остальные. В том случае, если по одному из признаков (энтропия и/или «удивительность») предсказательная сила существенно варьирует (различается более чем на 1), а по другому различие близко к единице (маркировано подчеркиванием в табл. 3 и 4). Это примыкающий класс (он примыкает к тем ключевым словам, у которых среднее и медиана различались на 1 и больше).

Исследовав вероятность появления в тексте того или иного ключевого слова, можно распределить их на группы в соответствии с информативностью:

• информативные, то есть с помощью которых можно описать весь кластер;

• менее информативные;

• не информативные (за счет высокой контекстной предсказуемости).

Табл. 1. Информационные портреты

_для анализируемых кластеров

Информационный портрет для кластера про А. Шварценеггера

Шварценеггер Кремниевая долина Арнольд

венчурные фонды

Сколково

кремниевый

инновационное партнерство венчурный

российский президент инновационный центр ведущие компании венчурная компания высокие технологии терминатор российский лидер советские штангисты подземка горка

Охотный ряд

инновационные компании_

Информационный портрет для кластера про С. Собянина_

Собянин новый мэр Мосгордума инаугурация внеочередное заседание белый зал

тайное голосование городская дума столичный парламент присяга

столичный градоначальник

его кандидатура

должностной знак

новый градоначальник

наделение

столичная мэрия

столичный мэр

КПРФ

Платонов

МГД_

Таблица 2. Наборы КС2 для анализируемых кластеров

И S с r И S с r

КС2 (Шварценеггер) Freq s t ■ч о "О У "в i l КС2 (Собянин) Freq s t ■ч о "О У "в i l

Шварценеггер 23 6 3,5 мэр 24 8 2,6

Медведев 21 7 4 Собянин 19 6 3,9

технологический 20 10 1 Москва 18 9 2,3

Сколково 20 7 3,1 системы 15 13 1,6

долина 13 13 0 МГД 14 9 4,6

Кремниевая 13 14 4,9 Платонов 14 9 4,2

бум 12 10 3,4 Лужков 11 9 4,5

ученые 12 10 3,3 Отставка 11 14 4,6

инновационными 11 11 7 ответственность 11 13 2,7

прорыв 10 12 5,75 вице-премьер 10 11 5,2

разработки 10 13 3,55 утверждён 9 11 5,1

губернатор 9 7 2,6 кандидатура 9 8 3,3

Арнольд 7 8 4,25 присяга 8 10 1,85

российские 7 10 3,4 Сергей 7 7 3,5

Дмитрием 7 10 4,6 Единая 7 10 3,8

Калифорния 7 9 4,1 Россия 7 8 2,5

американских 7 8 2,8 президент 7 8 2,9

встреча 7 10 1,3 голосование 7 9 4,45

инновационный 6 10 3,7 пост 7 8 4,6

Президентом 6 9 2,5 выбор 7 11 1,6

Табл. 3. Энтропия и удивительность по кластеру (Шварценег гер)

Слово Энтропия Удивительность

Среднее значение Медиана Среднее значение Медиана

Шварценеггер 6 6 3,5 3,5

Кремниевый 9,2 8 3,3 2,9

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Долина 13 13 0 0

Арнольд 8 8 4 4,25

Венчурный 13 13 4,1 3,8

Фонд 11,6 11 3,8 3,15

Сколково 7 7 3,5 3,1

Партнерство 12,9 14 3,2 1,3

Инновационный 10,7 10 3,8 3,6

Президент 7,4 7 3,4 3,3

Компания И 9 3 2

Технология 11,1 9 2,6 1

Терминатор 11,2 11 4,6 5

Российский 10 9 3,9 3,6

Лидер 12,1 12 4,1 3,5

Подземка 11,8 11 3,7 4,05

Советский 13 13 3,8 0,55??

Высокие 12,3 12 4 3,3

Горка 12,6 13 5,3 5,8

Штангист 13,3 12,5 2,1 2,25

Таблица 4. Энтропия и удивительность по кластеру (Собянин)

Слово Энтропия Удивительность

Среднее значение Медиана Среднее значение Медиана

Собянин 7,4 6 3,94 3,9

Новый 10,25 10 4,77 4,9

Мэр 7,72 8 3,39 2,6

Мосгордума 8,73 9 3,83 3,8

Инаугурация 9,35 9 4,89 5

Внеочередной 10,54 10 4,77 4

Заседание 9,6 9 3,95 3,8

Голосование 9,76 9 4,21 4,45

Городской 11,27 12 4,96 4,55

Столичный 10,61 10 4,73 4,4

Парламент 11,96 11 3,22 2,3

Присяга 10,45 10 3,38 1,85

Градоначальник 10,06 11 3,8 3,2

Кандидатура 9,06 8 3,76 3,3

Должностной 11,56 10 2,88 2,8

Мэрия 10,09 8 3,89 3

КПРФ 9 9 4,69 4,05

Платонов 9,69 9 3,62 4,2

Тайный 10,17 10 4,3 3,9

Зал 11,64 12 3,67 1,3

Таким образом, можно составить малый, средний и большой наборы ключевых слов для кластеров (рис. 1, рис. 2). В малый входят слова с наименьшей разницей между энтропией и удивительностью - такие, как «Шварценеггер», «Сколково», «Президент», то есть наиболее значимые для понимания смысла текста. В средний - менее информативные, например, «терминатор» и «технология». В большом наборе окажутся уже слова, удивительность которых близка к нулю, то есть их появление в тексте можно почти точно предсказать по контексту.

Для кластера, посвященного назначению Собянина на должность мэра, наиболее значимыми оказались слова «Собянин», «инаугурация», «голосование». Несущими наименьшее количество информации - «зал» (подразумевается Белый зал, в котором проходила инаугурация), «парламент», «присяга».

4 Выводы

После анализа наборов ключевых слов в новостных кластерах мы можем сказать, что полученные результаты вполне ожидаемы. Слова, часто встречаемые как в единичном тексте, так и во всем новостном кластере, скорее всего оказываются ключевыми словами. Те слова, которые встречаются не так часто, могут подробнее описать новостную ситуацию, добавить информации, раскрыть шире тему. Редко встречающиеся слова, скорее всего, мало значимы с точки зрения информации. Т.к. их мало в тексте и в кластере в целом, любая формула будет очень чувствительна к значениям одного встречаемого слова, поэтому у таких слов вероятны большие различия между средними значениями метрик и медиан.

Таким образом, все ключевые слова можно условно разделить на три группы, причём существует прямая зависимость между информационными характеристиками и предсказательной силой ключевых слов.

Разность между медианами энтропии и удивительности

Рис. 1 Информативность ключевых слов (кластер про Шварценеггера)

Разница между медианами энтропии и удивительности

12

Рис. 2 Информативность ключевых слов (кластер про Собянина)

Методы и алгоритмы извлечения ключевых слов

Благодарности

Мы хотели бы поблагодарить нашего научного руководителя Ягунову Елену Викторовну за помощь в обучении компьютерной лингвистики и в написании статьи.

Работа выполнена при поддержке гранта СПбГУ 30.38.305.2014

Список литературы

Ягунова Е.В. 2011. Основы теоретической, вычислительной и экспериментальной лингвистики, или Размышления о месте лингвиста в компьютерной лингвистике // Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: учеб. пособие / Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. М.: МИЭМ.

Антонов А.В., Баглей С.Г., Мешков В.С., Суханов А.В. 2006. Кластеризация документов с использованием метаинформации // Труды международной конференции Диалог'2006. М.: РГГУ.

D. MacKay. 2003. Information Theory, Inference, and Learning Algorithms. // Cambridge University Press.

Mark Myslín and Roger Levy. 2015. Codeswitching and predictability of meaning in discourse. // Language 91(4).

Мурзин Л. Н., Штерн А. С. 1991. Текст и его восприятие. Свердловск: Изд-во Урал. ун-та. 172 с

Salton G., Buckley C. 1988. Term-weighting approaches in automatic text retrieval. Information Processing and Management, № 24(5), pp. 513— 523.

Manning C., Schutze H. 2002. Foundations of Statictical Natural Language Processing, pp.151189

Ягунова Е.В., Пивоварова Л.М. 2011. Исследование структуры новостного текста как последовательности связных сегментов // Компьютерная лингвистика и интеллектуальные технологии. По материалам ежегодной международной конференции «Диалог». М., РГГУ.

Ягунова Е.В.., Пивоварова Л.М. 2014. От коллока-ций к конструкциям // ACTA LINGÜISTICA PETROPOLITANA. Труды Института лингвистических исследований РАН. Т. X. Ч. 2. Русский язык: грамматика конструкций и лексико-семантические подходы / Ред. тома С. С. Сай, М. А. Овсянникова, С. А. Оскольская. СПб.: Наука.

Антонов А. В., Ягунова Е. В. 2010. Охват содержимого информационных потоков путем анализа сверток текстов // Материалы XII Всероссийской научной конференции RCDL'2010 «Электронные библиотеки : перспективные методы, технологии, электронные коллекции» (Казань, 13-17 октября 2010 года). Казань.

Классификация ключевых слов для описания новостных кластеров Текст научной статьи по специальности «Языкознание и литературоведение»

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Мартина В.С., Соколова Д.Ю., Флуд Д.В., Крутченко О.В.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Мартина В.С., Соколова Д.Ю., Флуд Д.В., Крутченко О.В.

Текст научной работы на тему «Классификация ключевых слов для описания новостных кластеров»