Научная статья на тему 'Извлечение ключевой информации из текста'

Извлечение ключевой информации из текста Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
588
91
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Абрамов П.С.

В работе рассмотрены существующие методы конкретного сжатия текстовой информации, особенности выделения информации из различных сфер, предложен метод извлечения ключевой информации из текста, приведены результаты работы алгоритма.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Абрамов П.С.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Извлечение ключевой информации из текста»

Извлечение ключевой информации из текста

Абрамов П.С. НИУ Высшая школа экономики, МИЭМ psabramov@edu.hse.ru

текста средствами алгоритмов и машинного обучения. Предмет исследования методы конкретного сжатия текста.

Аннотация

В работе рассмотрены существующие методы конкретного сжатия текстовой информации, особенности выделения информации из различных сфер, предложен метод извлечения ключевой информации из текста, приведены результаты работы алгоритма.

1 Введение

Предметной областью исследования является обработка естественного языка, работа нацелена на изучении возможности точности передачи информации при её сжатии. В век IV промышленной революции, данных, количество информации увеличивается, становится необходимым ориентироваться в этом потоке, находить необходимые ключевые аспекты и отсеивать ненужное. Ярким примером может служить алгоритм формирования новостного заголовка, который был куплен компанией Yahoo в 2013 году. Увеличивающийся темп жизни ведёт за собой увеличивающийся объем информации и скорости её поглощения человеком.

Существует два способа сжатия текстовой информации: конкретный и абстрактный. Первый заключается в использовании конкретных алгоритмов для нахождения часто встречаемых терминов и коллокатов, результатом такого способа является набор n-грамм не всегда пригодный для понимания человеком. Абстрактная выжимка текста подразумевает под собой составление нового текста меньшего объёма из имеющегося такой способ краткого изложения использует человек. Для составления абстрактного краткого содержания текста машинными методами используется метод Sequence to Sequence обучения. Он заключается в составлении воспринимаемого человеком текста исходя из неких словосочетаний. Словосочетания эти являются результатом алгоритмов конкретного сжатия. Таким образом, абстрактное извлечение состоит из подготовки текста (извлечения значимых коллокатов текста) и создания удобочитаемого представления из этих коллока-тов. Объектом исследования являются, методы извлечения ключевой информации из

2 2.1

Обзор литературы

Анализ существующих методов конкретного сжатия текстовой информации

Существует несколько подходов для извлечения ключевой информации. Одним из них является частотный анализ текста, когда каждому слову представления текста присваивается вес для определения принадлежности данного слова к тематике текста. Самая простая метрика веса для слова - частота его вхождения в текст

Вандервенде предложила [Vanderwende,L, 2007] формулу определения важности предложения по смыслу текста через метрику вероятности встречи слова.

Для каждого предложения на входе этот алгоритм закрепляет за ним вес равный средней вероятности слова в предложении, что является весом предложения. Следующие все наиболее встречаемые слова заносятся в краткое содержание.

Следующим подходом является TFIDF. Так как техники, основанные на вероятностном появлении слов, зависят от стоп-слов, а их не всегда получается определить однозначно, существует потребность в более продвинутых техниках. Одна из них - это TFIDF (Term Frequency Inverse Document Frequency) Она выделяет ключевые слова, давая низкие веса словам, появляющимся в большинстве документов. Вес каждого слова w в документе d описывается как

Где частота термина слова w в документе d. Латентно семантический анализ (Latent semantic analysis, LSA), предложенный [Deerwester, 1990] представляет собой алгоритм обучения без учителя для выделения представления текстовой семантики, осно-

Извлечение ключевой информации из текста

ванной на полученных словах Гонг и Ли предложили метод, использующий латентно семантический анализ для выбора предложений с наибольшими коэффициентами для краткого содержания одного или нескольких документов содержащих новости. LSA метод вначале строит матрицу терминов-предложений n на m где каждая строка отвечает за слово в документе (n слов), а каждая колонка за предложение (m предложений) каждое вхождение aij матрицы есть вес слова I в предложении j. Веса слов вычисляются метрикой TFIDF и если в предложении нет слова, то вес равен нулю. Далее полученная матрица сингулярно раскладывается на три матрицы. Матрица U (n x m) представляет собой веса главные термины. Матрица £ это диагональная матрица (m x m) в которой каждая строка i представляет собой вес тематики I. Матрица VT матрица, состоящая из предложений по тематике. Матрица D=£ VT описывает насколько полно предложение описывает тему, таким образом dij показывает вес темы I в предложении j.

2.2 Влияние контекста на сжатие текста

Системы сжатия текста часто имеют дополнительные источники информации, например, в комментариях к постам чаще всего обсуждают наиболее значимые его части. Ниже представлены некоторые ниши, в которых контекст важен для определения ключевой информации текста

Выделение ключевых слов в Web .Web страницы состоят из множества элементов, из которых нельзя выделить ключевую текстовую информацию, например, картинки. Текстовая информация в этой нише ограничена, это значит, что применение техник выделения ключевой информации ограничено, для увеличения объема информации используют страницы, которые ссылаются на исходную web-страницу

Выделение ключевых слов в научных работах. Полезным источником информации при сжатии научных текстов, является использование источников, которые ссылаются на исходную работу Mei et al предложили [41-1] языковую модель которая дает вероятность встречаемости каждого слова при цитировании данной работы. Далее оценивается важность предложения в исходном тексте используя метод KL дивергенции (иными словами, находят общее между предложением и языковой моделью. [Abu-Jbara, 2011] Однако,

возможен другой подход для извлечения ключевой информации из текста.

3. Предлагаемый метод

Английский и русский примерно одно и то же Для определения ключевых терминов в данной работе предлагается использовать отклонения в законе Ципфа для н-грамм. Закон Ципфа - эмпирическая закономерность распределения частоты слов естественного языка, если все слова упорядочить по убыванию количества вхождений в текст, то частота п-ого слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру п, так называемому рангу этого слова.

300 ООО ^-

2 75000 --

2 50000 --

225000 --

2 00000 --

Ранг (от 3 до 170)

Рис. 1 закон Ципфа. Зависимость частоты вхождения слова от его ранга

Однако в реальности существуют коллока-ты, которые выделяются из закона распределения Ципфа. Выделяя их, можно получить ключевые слова текста.

Рис. 2 закон Ципфа для произведения «Война и мир»

Табл. 1. Первые пять биграмм по частоте встречаемости в «Войне и мире»

Как можно видеть из таблицы, при выделении коллокатов неразрешенные кореферентные ссылки зашумляют результат. При их разре-

Биграммы Частота MI T-score

Андрей князь 777 5.14 27.08

Он сказал 596 0.96 11.86

Княжна Марья 365 5.95 18.80

Был он 289 0.2 2.83

шении количество искомых н-грамм уменьшится, но смысл возрастёт. Например, самые таблица 2 показывает самые часто встречаемые слова на английском произведения «Гордость и предубеждение» на английском:

Табл. 3. Частотный анализ произведения «Гордость и предубеждение» после разрешения коре_феретных ссылок

Слово Частота

Elizabeth 575

Darcy 199

Bingley 168

Mr 120

Bennet 117

Таким образом, коре ерентное разрешение

ссылок позволяет получить более релевантные результаты ключевых слов для последующего создания абстрактного краткого содержания. (23 биграммы и 2 триграммы для текста разрешенных кореферентных ссылок; 10 биграмм и 1 триграмма для текста без разрешения кореферентных ссылок). Также можно заметить, что с увеличением размерности п-граммы их количество становится значительно меньше.

Итоговый алгоритм получился следующим:

1) Разрешение кореферентных слов

2) Разбитие текста на предложения

3) Частотный анализ п-грамм внутри предложений

Благодарности

Статья подготовлена в ходе проведения исследования в рамках Программы «Научный фонд Национального исследовательского университета «Высшая школа экономики» (НИУ ВШЭ)» в 2017г. (№ проекта 17-050017) и в рамках государственной поддержки ведущих университетов Российской Федерации «5-100».

Список литературы

Abu-Jbara, Amjad, and Dragomir Radev. "Coherent citation-based summarization of scientific papers." Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies-Volume 1. Association for Computational Linguistics, 2011.

Allahyari, M., Pouriyeh, S., Assefi, M., Safaei, S., Trippe, E.D., Gutierrez, J.B. and Kochut, K., 2017. Text summarization techniques: A brief survey. arXiv preprint arXiv: 1707.02268

Deerwester, S., Dumais, S. T., Furnas, G. W., Landauer, T. K., & Harshman, R. (1990). Indexing by latent semantic analysis. Journal of the American society for information science, 41(6), 391.

Soon, Wee Meng, Hwee Tou Ng, and Daniel Chung Yong Lim. "A machine learning approach to corefer-ence resolution of noun phrases." Computational linguistics 27.4 (2001): 521-544.

Vanderwende, L., Suzuki, H., Brockett, C., & Nenko-va, A. (2007). Beyond SumBasic: Task-focused summarization with sentence simplification and lexical expansion. Information Processing & Management, 43(6), 1606-1618

Табл. 2. Частотный анализ произведения «Гордость и предубеждение» до разрешения корефе-_ретных ссылок

Слово Частота

Mr 139

Bingley 112

Miss 90

Said 88

Elizabeth 83

i Надоели баннеры? Вы всегда можете отключить рекламу.