Научная статья на тему 'Оценивание чувствительности алгоритма извлечения ключевых слов TextRank к структурным преобразованиям входного текста'

Оценивание чувствительности алгоритма извлечения ключевых слов TextRank к структурным преобразованиям входного текста Текст научной статьи по специальности «Математика»

CC BY
317
135
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Гращенко Л.А., Адаменко А.В.

В статье приводятся результаты оценки чувствительности алгоритма извлечения ключевых слов TextRank к структурным изменениям русскоязычного текста, таким как смысловые (рерайтинг) и случайные перестановки слов. Показано, что TextRank наименее чувствителен к перестановке крупных семантических блоков. Рассматривается возможность реализации модернизированной версии данного алгоритма для русского языка на основе k-связанности вырожденного семантического графа.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Оценивание чувствительности алгоритма извлечения ключевых слов TextRank к структурным преобразованиям входного текста»

Оценивание чувствительности алгоритма извлечения ключевых слов ТехЖапк к структурным преобразованиям входного текста

Оценивание чувствительности алгоритма извлечения ключевых слов Тех1Яапк к структурным преобразованиям входного текста

Гращенко Л.А., Адаменко А.В., Академия ФСО России graschenko@mail.ru, pertovry@gmail. com

Аннотация

В статье приводятся результаты оценки чувствительности алгоритма извлечения ключевых слов ТехЖапк к структурным изменениям русскоязычного текста, таким как смысловые (рерайтинг) и случайные перестановки слов. Показано, что Тех1Яапк наименее чувствителен к перестановке крупных семантических блоков. Рассматривается возможность реализации модернизированной версии данного алгоритма для русского языка на основе к-связанности вырожденного семантического графа.

1 Введение

Значительное число практических реализаций алгоритмов извлечения ключевых слов (КС) и фраз из текстов, написанных на естественном языке, использует представление входного текста в виде графа. Такие методы (графовые или граф-ориентированные) в соответствии с известной классификацией [Ва-

нюшкин, 2016] наравне с синтаксическими (шаблонными) методами относятся к структурным методам извлечения ключевых слов. В их основе лежит представление о регулярных синтаксических конструкциях, содержащих КС на определенных позициях.

Графовые алгоритмы представляют текст множеством слов-вершин и ребер-отношений между ними. Эти отношения могут выражать факты последовательного появления тех или иных слов в окне заданного размера, перемещаемого вдоль текста, или семантическую близость слов в синтаксическом дереве [Ва-нюшкин, 2017]. Для вершин полученного графа вычисляются ранги (например, на основе числа инцидентных вершине ребер), а далее по пороговому критерию отбираются ключевые слова.

Активная реализация графовых алгоритмов началась 1998 году, когда для поисковой машины Google был разработан алгоритм PageRank, ставший основой для разработки целой серии алгоритмов данного типа, рис. 1.

Rake (2010)

TopicRank (2010)

DegExt (2013)

J

TextRank (2016)

CusterRank (2016)

-► год

1998 2004 2008

- выделение ключевых слов/фраз

- ранжирование Web-страниц/

аннотирование

2010 2013 2016

- ранжирование Web-страниц

| - выделение ключевых слов/фраз/ аннотирование

Рис. 6. Ретроспектива развития граф-ориентированных алгоритмов выделения ключевых слов

3. для выделения ключевых слов и фраз,

Последующие реализации алгоритмов по области их применения можно разделить на три класса:

1. предназначенные для ранжирования Web-страниц и аннотирования (LexRank, ClusterRank);

2. для выделения ключевых слов/фраз (Rake, DegExt);

а также аннотирования (TextRank-2004, 8т-gleRank, TopicRank, TextRank-2016).

Указанные алгоритмы изначально были реализованы для западноевропейских языков, по отношению к которым их авторы заявляют хорошие результаты полноты и точности извлечения ключевых слов и фраз [МШа1сеа, 2004], хотя испытания на различных корпусах

показывают значительный разброс в результативности [Ванюшкин, 2017]. Для русского языка количество реализаций невелико, а наиболее доступным является Тех1Яаик (2004) [Усталов, 2012], представляющий третий класс алгоритмов. Адаптация этого алгоритма к русскому языку позволила всесторонне оценить его показатели эффективности и, в частности, определить, что алгоритм Тех1Яаик (2004) наиболее применим к текстам, размер которых не превышает 400 слов [Адаменко, 2017]. Известно, что структурные методы извлечения КС чувствительны к структуре текста. В данной работе ставится задача исследовать степень чувствительности алгоритма Тех1Яаик к структурным преобразованиям входного русскоязычного текста, не затрагивающим его семантику.

2 Оценивание чувствительности

Чувствительным к структуре входного текста мы называем такой алгоритм извлечения ключевых слов, который выдает различные наборы КС для семантических инвариантов некоторого входного текста (длины инвариантов могут незначительно отличаться в пределах единиц процентов). Примером получения таких инвариантов является рерайтинг, т.е. переписывание текста путем изменения порядка следования смысловых единиц.

Для оценивания чувствительности адаптированного к русскому языку алгоритма Тех1Яаик версии 2004 года [Адаменко, 2017] был выбран текст длиной 302 слова, написанный официально-деловым стилем. К исходному тексту были применены три вида структурных преобразований:

1. Группа А (поверхностный рерайтинг): в исходном тексте менялись местами крупные семантические блоки (абзацы, предложения).

2. Группа В (углубленный рерайтинг): изменялась синтаксическая структура предложений (в пределах одного предложения менялись местами слова и фразы, добавлялся небольшой процент незначимой лексики).

3. Группа С (случайные семантические искажения): в исходном тексте случайным образом менялись местами 15 пар слов. Данная группа рассматривалась как контрольная.

Таким образом, для тестирования было приготовлено три группы по 15 текстов, отличающихся от исходного текста на некоторую величину (выраженную в %), рис. 2. Схожесть текстов оценивалась по длине об-

щих подстрок. Далее все тексты были обработаны алгоритмом Тех1Яаик-2004, а полученные наборы КС сравнивались с эталонным набором КС (полученным из оригинального текста).

29,9

25,4817,4 21,1

•I

I

4,8

4,7

3,2-

1,4

В

С

Рис. 2. Характеристики групп текстов

В ходе тестирования варьировался параметр размера окна (Ж = 2, 3), определяющий структуру семантического графа, а также длина списка КС (М = 8, 9, 10). Средний процент пересечения наборов КС с эталонным набором для всех вариантов параметров приведен на рис. 3-5.

Рис. 3. Результаты тестирования текстов группы А

Рис. 4. Результаты тестирования текстов группы В

Оценивание чувствительности алгоритма извлечения ключевых слов TextRank к структурным преобразованиям входного текста

взвешенном случае степень вершины V равна сумме весов инцидентных ей рёбер.

Как показано на рис. 6, к-ядерное разложение графа О является множеством всех его ядер от 0 до k-max (его основное ядро). Он формирует иерархию вложенных подграфов, чья сплоченность и размер соответственно определяются к. Основное ядро О является грубой аппроксимацией его самого плотного подграфа [Garg, 2009].

Рис. 5. Результаты тестирования текстов группы С

Тестирование алгоритма TextRank (2004) на текстах группы А показало что изменение крупных семантических блоков (абзацев, предложений) не приводит к значительному изменению точности извлечения ключевых слов. Однако для текстов группы В различия в наборах КС по отношению к эталону были значительными, что обусловлено существенными изменениями структуры семантического графа при углубленном рерайтинге. На примере группы С видно, что случайные перестановки 5% исходного текста серьезно влияют на результаты извлечения ключевых слов только при окне сканирования N = 4.

В итоге можно сделать вывод о том, что алгоритм TextRank-2004 имеет достаточно высокую чувствительность к структурным преобразованиям входных текстов.

3 Вариант модернизации алгоритма Тех1Яапк

Первичные результаты, полученные в статье [Адаменко, 2017], а так же оценки чувствительности к структурным преобразованиям входных текстов показали несовершенство алгоритма TextRank-2004. Его нецелесообразно применять к текстам длиной более 400 слов. Для преодоления ограничений алгоритма, в 2016 году была предложена его модификация, основанная не на ранжировании вершин при обходе графа, а на так называемой плотности (к-связанности) вырожденного графа, получаемого путем разложения к-ядер. Данная концепция была впервые применена к изучению сплоченности в социальных сетях.

Ядром порядка к (или к-ядром) группы О является максимальный связный подграф группы О, в котором каждая вершина V имеет степень не менее к [Vazirgiannis, 2016]. Если ребра не взвешены, степень V равна числу смежных вершин (инцидентных рёбер), а во

Рис. 6. ^ядерное разложение графа О

^-связанность - это расширение к-ядра. Точнее, к-связь в графе О является ее наибольшим подграфом. Другими словами, каждое ребро в к-связи соединяет две вершины, которые имеют, по крайней мере, к-2 общих соседей. Таким образом, к-связанность по сравнению с к-ядром более точно отражает сплоченность узлов графа О. В результате получаются более плотные подграфы, чем к-ядра, а максимальная к-связанность графа G лучше аппроксимирует ее самый плотный подграф.

Для использования рассмотренной концепции было предложено использовать семантический граф, который строится на первом этапе работы алгоритма TextRank-2004 [Vazirgiannis, 2016]. Перед построением семантического графа необходимо произвести удаление стоп-слов, а так же частеречную разметку текста, что позволяет строить семантический граф на основе существительных и прилагательных. Именно эти операции составляют основу адаптации алгоритма извлечения КС к тому или иному языку [Ада-менко, 2017].

Таким образом, модификация TextRank-2016 подразумевает замену второго этапа работы алгоритма TextRank-2004 (итерационно-

го ранжирования семантического графа) на выбор наиболее сплоченных участков графа (k-связанностей). Принципиальное отличие в первом этапе состоит в том, что TextRank-2004 показывает лучшие результаты при малых размерах сканирующего окна (N = 2, 3), а для модификации TextRank-2016 построение графа производится при большем размере сканирующего окна (N = 5, 6).

Ввиду невозможности совмещения параметров сканирующих окон этих алгоритмов, их использование как взаимодополняющих друг друга не представляется возможным.

4 Заключение

По результатам изложенного материала представляется обоснованным сделать следующие выводы:

1. Показана высокая чувствительность адаптированного к русскому языку алгоритма TextRank-2004 к структурным преобразованиям входных текстов. Поверхностный ре-райтинг приводит к изменению до 20% набора выделенных ключевых слов. тому, что набор изменению текста. В случае углубленного рерайтинга (без изменения размера текста и синонимайзинга) изменяется до 50% набора КС. таким образом, алгоритм TextRank-2004 обладает рядом серьезных ограничений к практическому использованию для решения задач, допускающих варьирование структуры текста.

2. Предполагается, что модификация алгоритма TextRank-2016 на основе k-связанности вырожденного семантического графа будет менее чувствительна к вариациям длины и структуре входных текстов. Требуется реализация указанной модификации алгоритма для русского языка и проведения комплекса всесторонних испытаний.

Список литературы

Адаменко А.В. Адаптация алгоритма извлечения ключевых слов TextRank к русскому языку / А.В. Адаменко // Вестник науки. Сборник научных работ аспирантов, магистрантов и студентов физико-математического факультета / под общ. ред. Т.Н. Можаровой. - Выпуск 16. -Орел: ОГУ, 2017. - С. 6-12.

Ванюшкин, А.С. Методы и алгоритмы извлечения ключевых слов / А.С. Ванюшкин, Л. А. Гращенко // Новые информационные технологии в автоматизированных системах. -2016. - № 19. - С. 85-93.

Ванюшкин, А.С. Оценка алгоритмов извлечения ключевых слов: инструментарий и ресурсы / А.С. Ванюшкин, Л.А. Гращенко // Новые информационные технологии в автоматизированных системах. - 2017. — № 20. - С. 95-102.

Усталов, Д. А. Извлечение терминов из русскоязычных текстов при помощи графовых моделей / Д. А. Усталов // Лингвистическая обработка. - 2012. - №12. - С. 148-152.

Garg, N. А graph based method for meeting extraction / N. Garg, K. Riedhammer // Conference of the International Speech Communication Association, Brighton, United Kingdom - 2009 - pp. 14991502.

Mihalcea, R., Textrank: Bringing order into texts Proceedings of EMNLP 2004 / R. Mihalcea, P. Tarau // Association for Computational Linguistics, Barcelona, Spain - 2004. - pp. 404-411.

Vazirgiannis, M. A graph degeneracy-based approach to keyword extraction / M. Vazirgiannis // Association for Computational Linguistics, Pal-aiseau, France - 2016. - pp. 131-146.

i Надоели баннеры? Вы всегда можете отключить рекламу.