Исследование метода выделения однословных терминов
в тематических текстах
Бородин Д.С., Строганов Ю.В., МГТУ им. Н.Э.Баумана [email protected], [email protected]
Аннотация
Данная статья посвящена вопросам исследования работы метода выделения однословных терминов из текстов различной тематической направленности. Метод разработан в контексте взаимодействия с реляционными базами данных. В качестве входной выборки метод использует структурированные тексты в виде словарных статей на различную тематику. Работа метода основана на положениях дистрибутивной семантики и содержит этапы удаления стоп-слов, подготовки терм-документной матрицы, разложение подготовленной матрицы и сравнение полученных словарных векторов. В качестве меры сравнения используется косинусное расстояние. Вычисляются характеристики на основе экспертной оценки. Экспериментально показаны более высокие результаты в сравнении с аналогичными методами, относящимся к различным классам.
1 Введение
На сегодняшний день, одним из наиболее распространенных способов трансляции информации на естественном языке в соответствующую машинную информацию являются семантические сети. Они позволяют добиться семантической однозначности слов и избавиться от дополнительных видов анализа [Ка^^, 2011]
Данная работа посвящена оценке метода выделения однословных терминов - сущностей для подобных семантических сетей. Разработанный метод основан на положениях дистрибутивной семантики, где значение слова является распределением над его контекстами. В качестве входных данных метод использует структурированные тексты в виде словарных статей. Работа метода разделена на несколько этапов:
• производится подготовка образов документов путем удаления стоп-слов;
• производится подсчет вхождений каждого слова в коллекции документов, составляются словарные вектора;
• полученные вектора образуют матрицу модели «термин-документ», в которой по строки отражают все существительные в образах документов, столбцы - порядковые номера документов в коллекции;
• производится сингулярно-векторное разложение матрицы на набор двумерных векторов для уменьшения вычислений и ускорения работы алгоритма;
• производится сравнение векторов, осуществляется расчет семантической близости слов. Близость определяется косинусным расстоянием между векторами;
Разработанный метод не зависит от предметной области, но зависит от входной выборки текстов - более полная выборка позволяет добить более полного и точного результата. Метод может быть впоследствии применен для построения семантических сетей, позволяющих преобразовывать запросы на ограниченном естественном языке в запросы к реляционным базам данных [Бородин, Строганов, 2016].
2 Описание исследуемых методов -аналогов разработанного метода
2.1 Методы поиска ключевых слов
Ключевые слова представляют собой такие функциональные единицы текста, которые позволяют составить описание текста и определить его тематику. Получаемый набор ключевых слов может использоваться для метао-писания текстовых документов, необходимых для поиска, кластеризации, аннотирования и реферирования [Manning, 1999].
Общая классификация методов поиска ключевых слов представлена набором характеристик, позволяющих выделить отдельные классы методов. Например, в зависимости от характеристики методы могут быть разделены так:
• по обучаемости: обучаемые, необучае-мые, самообучаемые;
• по аппарату распознавания: структурные, гибридные, статистические, нейросете-вые;
• по лингвистическим ресурсам: словарные и бессловарные;
• по входным данным: на основе размеченных и неразмеченных онтологий и корпусов;
Рассмотрим наиболее известные и эффективные методы извлечения ключевых слов в тексте.
2.1.1. TF-IDF
Данный алгоритм основан на статистическом подходе, главной идеей которого является предположение о том, что слова, встречающиеся в тексте наиболее часто, отражают основную мысль текста. Является наиболее простым алгоритмом из всех алгоритмов данного подхода, так как рассчитывает вес слова как величину, прямо пропорциональную количеству появлений терма t в документе и обратно пропорциональную количеству появлений в других документах текста.
Для вычисления меры, используемой в данном алгоритме, получают значение двух величин: term frequency (tf) - число появлений слова в тексте документа и inverse document frequency (idf) - обратная документальная частота, определяемая как логарифм отношения числа появлений слова в других текстах документа к общему числу документов. Затем происходит вычисление «весов»
f - idft ,d = tft,d ■ idft
где t - текущий терм (слово), d - текущий документ. Слова с наибольшими весами считаются ключевыми.
Основным недостатком методов, основанных на статистическом подходе является то, что они не учитывают связность слов в тексте, что может оказывать существенное влияние на конечный результат [Калиниченко, 2017]. При этом данная проблема может быть решена с помощью методов лингвистического анализа.
2.1.2. Функциональный подход к выделению ключевых слов
Методика, разработанная соотечественниками из Воронежского Государственного университета, опирается на использование алгоритма тематически маркированной лексики [Воронина, Кретов, Попова, Дудкина, 2009]. Взвешивание слов производится по
двум параметрам - частотному и длине слова. Взвешивание по длине слова производится из соображения о том, что чем чаще слово употребляется в тексте, тем оно короче. При этом производится соотнесение параметров длины слова и частоты встречаемости. Разработчики считают, что стабильно часто встречающееся длинное слово в тексте будет определять его специфику.
Параметр частоты встречаемости определяется по формуле:
I - - ^-1
Qn =
где I г - сумма единиц всех рангов в частотном словаре (словарь содержит упорядоченные по убыванию частоты встречаемости слова, где наиболее часто встречающиеся имеют ранг 1, далее по убыванию происходит увеличение ранга на единицу), а - сумма единиц от первого до данного ранга включительно. Аналогичная формула применяется для параметра Гп, где используется словарь, в котором слова упорядочены по убыванию длины слов в звуках. Далее вычисляется разность Q и Б, при этом положительные значения разности характеризуют тематически маркированную лексику, то есть необходимые ключевые слова.
Результатом применения данного метода является выделение однословных терминов в количестве 15% от общего числа всех ключевых слов и 40% терминологических сочетаний.
Основным недостатком алгоритма считается неспособность выделения ключевых слов с низкой частотой встречаемости (до 1-3 раз в тексте).
2.1.3. Извлечение ключевых слов из микроблогов
Является одной из последних модификаций алгоритмов, использующих статистический подход. При этом в качестве источника данных для извлечения необходимых ключевых слов используется Википедия, как наиболее полная энциклопедия, содержащая большие объемы информации.
Работа алгоритма осуществляется в три этапа: препроцессинг, в котором исходный текст преобразуется к формату входных данных, далее происходит формирование списка всех возможных ключевых терминов путем
перебора всех возможных N-грамм - последовательностей идущих друг за другом слов. Третьим этапом происходит удаление из списка терминов последовательностей, содержащих стоп-слова (слова, не несущие смысловой нагрузки) и упорядочение списка терминов в порядке убывания весов [Коршунов, 2011].
Недостатки этого алгоритма заключаются в неэффективности работы алгоритма по времени засчет перебора всех возможных N-грамм и небольшой процент выделения необходимых ключевых терминов засчет наличия большого числа именованных сущностей, распознающихся, как ключевые термины, однако не отражающие общей смысловой нагрузки в тексте.
2.1.4. Структурные методы извлечения ключевых слов
Алгоритмы, реализующие структурный подход, опираются, в основном на теорию графов. Так, алгоритм TextRank использует граф для оценки важности слов в тексте. При этом, значимость вершины графа рассчитывают через значимости смежных вершин. Смежность определяется расстоянием между словами, происходит фильтрация лексики перед постановкой вершин в граф, затем происходят расчеты значимость и упорядочение слов по убыванию важности. Причем ключевыми словами в данном методе считают не более 20 первых слов, комбинации которых образуют ключевые словосочетания. Недостатком алгоритма является его чрезмерная сложность [Ванюшкин, Гращенко, 2016].
Еще одним граф-ориентированным методом является Rake, в котором список возможных ключевых слов формируется на основании внутреннего словаря, а значимость вершин графа определяется в зависимости от частоты появления вершины в тексте и степени вершины. Для словосочетаний используется принцип суперпозиции - значимость словосочетания является суммой значимостей каждого отдельного слова [Weinstock-Herman, 2016].
Более простым граф-ориентированным методом считают DegExt, который значительно легче реализуется в отличие от TextRank. Особенностью метода является то, что в начале удаляются стоп-слова, а затем происходит постановка вершин графа и соединение дугами, причем дугами соединяют только те вершины, слова которых находятся рядом в
предложении и не разделены знаками препинания. Рекомендуется для выделения около 15 ключевых слов.
Другие методы, такие как метод Шульте-ра, отличаются от вышеописанных лишь набором дополнительных параметров в оценке значимости текущей вершины графа, таких как информация о позиции и длине слова, показателей центральности по степени, близости и посредничеству [Ванюшкин, Гращенко, 2016].
Общим недостатком граф-
ориентированных методов является усложненная логика вычисления значимости вершин при сравнительно невысоких качественных результатах выделения и затратность таких алгоритмов с точки зрения ресурсов системы.
2.1.5. СепЕх
Данный метод извлечения ключевых слов из текстовых документов представляет собой обучаемый алгоритм с использованием «выделителя» ключевых слов и генетического алгоритма. Основополагающими факторами определения важности слова является частота появления и позиция первого вхождения слова в текст/
Основным преимуществом использования генетических алгоритмов решении задачи выделения ключевых слов является концептуальная простота, широкая применимость, менее жесткие требования к решению задач, способность к распараллеливанию, устойчивость к динамическим изменениям [Интуит, 2017]. Однако, алгоритмы не лишены недостатков, к которым относят неочевидность конфигурации алгоритма при решении задачи, проблему выборов параметров генетического алгоритма, таких как мощность популяции и другие, а также требовательность алгоритмов к вычислительным ресурсам.
2.1.6. Алгоритм и использованием метода обнаружения сообществ в сетях Гирвана-Ньюмана
Разработка российских ученых совмещает в себе расчет меры семантической близости слов на основе Википедии и описанный в названии алгоритма метод поиска сообществ в сетях. Неоднозначность терминов в алгоритме решается путем выявления наибольшей семантической близости. Далее строится семантический граф, вершины которого упорядочиваются.
Основным недостатком этого метода считают высокое время реализации. Также неизвестно, как данный алгоритм справляется с русскоязычными текстами, так как, согласно [Гринева, Гринев, 2009] метод тестировался на англоязычных текстах.
2.2 Методы выделения именованных сущностей
Именованная сущность - слово, выражающее конкретный, определенный предмет или явление. Оно позволяет выделить его среди прочих похожих объектов данной категории. Обязательным условием именованной сущности является наличие референта - общего понятия, на которое направлен этот объект [Можарова, 2017], например: «За футбольную сборную выступили братья Березуцкие». Бе-резуцкие в данном предложении - именованная сущность, а братья - обязательный референт.
2.2.1. Метод, использующий деревья принятия решений
Деревья принятия решений являются одним из методов машинного обучения и используются обычно для классификации данных. Основная идея заключается в построении дерева и графа принятия решений засчет минимизации функций, описанных в [Шалаев, 2017]. Тестирование данного метода на корпусе текстов СоиЬЬ2003 показало эффективные характеристики точности, полноты и Б-меры при выделении именованных сущностей.
2.2.2. Метод опорных векторов
Метод опорных векторов является алгоритмом обучения с учителем, который используется для задач классификации. Обучение модели, являющейся бинарным линейным классификатором, происходит на основе тренировочного множества. Затем происходит построение гиперплоскости позволяющей разделить объекты на классы [Андриенко, 2017].
2.3 Метод извлечения информации из неструктурированных текстов
В основе данного метода итеративное выполнение функций по структуризации исходных текстов, формированию набора предикатов и объектов, а также поиска и описания фактов. Использует набор правил, на основа-
нии которых происходит выделение сущностей и отношений между сущностями. При этом выделяют 5 видов сущностей и два вида отношений между сущностями. Алгоритм позволяет строить эффективные аннотации на основе предложенных ему текстов. [Захарен-ков, Соколов, 2013]
Важным преимуществом данного алгоритма является его способность обрабатывать русскоязычные тексты без потери эффективности. Однако, это достигается засчет огромной предварительной работы по составлению правил выделения сущностей, что не очень удобно.
3 Сравнение разработанного метода с аналогами
Для корректной оценки качества работы разработанного алгоритма воспользуемся подсчетом характеристик, описанных в [Powers, 2011]. При этом воспользуемся заранее подготовленным набором текстов на заданную тематику в структурированном виде для более точного результата. Характеристики определялись на основе множественной экспертной оценки. Результаты исследования приведены в таблице 1.
Табл. 1. Сравнительная характеристика работы алгоритмов выделения однословных терминов
Название метода P(%) R(%) F(%)
TF-IDF (1972) 24.5 27.7 26.0
Метод Ворониной (2009) 42.1 44.3 43.2
Метод Коршунова (2011) 39.0 78.6 52.1
TextRank (2004) 35.2 47.7 40.5
Rake (2010) 33.9 41.1 37.2
DegExt (2008) 76.2 13.3 22.7
Метод Шультера (2014) 68.7 23.3 34.8
GenEx (2000) 21.1 15.3 17.7
Метод Гриневой (2009) 50.1 73.7 59.7
Деревья принятия решений 34.4 53.2 41.8
Метод опорных векторов 51.1 23.9 32.6
Метод Захаренкова (2013) 25.5 29.8 27.5
Разработанный метод (2017) 31.9 98.7 48.2
4 Заключение
На основании определенных в работе методов и средств, а также с учетом исследованных в работе алгоритмов, была произведена оценка эффективности работы алгоритма выделения однословных терминов на основе структурированных текстов. Согласно этой оценке можно сделать следующие выводы:
• наиболее оптимальный результат (наивысшее значение f-меры) выделения однословных терминов достигается при значении косинусного расстояния в 0.65;
• полнота вносит больший вклад в величину f-меры по сравнению с остальными характеристиками;
• увеличение точности при уменьшении угла между векторами подтверждает гипотезу о зависимости семантической близости слов от угла между векторами;
• метод не зависит от выбора предметной области;
• результат, показываемый разработанным методом, превосходит многие статистические алгоритмы, что говорит о высокой степени влияния структурированности выборки входных данных;
• метод показывает сопоставимые результаты с обучаемыми алгоритмами и алгоритмами на основе графов.
В качестве направления дальнейшего исследования работы предполагается расширение набора исследуемых методов - аналогов разработанного (например, сравнение с методами на основе нейронных сетей или скрытых марковских моделях)
Список литературы
Андриенко А.С. Выделение именованных сущностей в текстовых документах [Электронный ресурс] URL: http://nauchkor.ru/cloud_storage/documents/5 87d362f5f1be77c40d588c7.pdf (дата обращения 22.03.2017) Бородин Д. С., Строганов Ю.В. К задаче преобразования естественно-языковых запросов к реляционным базам данных. М: Новые информационные технологии в автоматизированных системах, №19, с. 119126, 2016.
Ванюшкин А.С., Гращенко Л.А. Методы и алгоритмы извлечения ключевых слов. М: Новые информационные технологии в автоматизированных системах, вып. 19, 2016. С. 85-94.
Воронина И.Е., Кретов А.А., Попова И.В., Дудкина Л.В. Функциональный подход к выделению ключевых слов: методика и реализации. // Вестник Воронежского Государственного университета. - 2009. - №1 -С.68-72
Гринева М., Гринев М. Анализ текстовых документов для извлечения тематически сгруппированных ключевых терминов. Труды Института системного программирования, РАН. 2009. Т.16 С.155-165.
Захаренков А.И., Соколов А.В. Метод извлечения информации из неструктурированных текстов. // Инновации в информационно-аналитических системах: сб. научных трудов. Вып. 5 - Курск: Науком, 2013. - 92 с. ISBN 978-5-4297-0009-0
Калиниченко А.В. Сущность проблемы анализа текста в полнотекстовых поисковых системах. Подходы и пути решения. [Электронный ресурс]. URL:
http://www.j urnal.org/articles/2010/inf12.htm (дата обращения 21.03.2017)
Коршунов А.В. Извлечение ключевых терминов из сообщений микроблогов с помощью Википедии. Труды Института системного программирования, РАН. 2011. Т.20 С.269-282.
Можарова В.А. Автоматическое извлечение именованных сущностей методами машинного обучения. [Электронны ресурс] URL : https: //www .slide share .net/msucsai/ss-57201175 (дата обращения 22.03.2017)
НОУ Интуит. Основы генетических алгоритмов. [Электронный ресурс] URL: http : //www. intuit.ru/studie s/courses/14227/12 84/lecture/24168?page=12 (дата обращения 22.03.2017
Шалаев М.М. Распознавание именованных сущностей с использованием алгоритмов машинного обучения, основанных на принципе минимальной длины описания [Электронный ресурс] URL:
http ://seminar.at.ispras. ru/wp -content/uploads/2012/07/shalaev-presentation.pdf (дата обращения 22.03.2017)
Kaihong Liu, William R. Hogan, Rebecca S.Crowley.: "Natural Language Processing methods and systems for biomedical ontology
learning", Journal of biomedical informatics, Vol. 44, issue 1, pp. 163-179, 2011
Manning C.D. Foundations of statistical natural language processing. Cambridge: The MIT Press, 1999
Powers D.M.W. Evaluation: from precision, recall and f-measure to ric, informedness, markedness and correlation. Journal of Machine Learning Technologies, 2011, vol. 2, iss. 1, pp. 37-63.
Schluter N. Centrality Measures for Non-Contextual Graph-Based Unsupervised Single Document Keyword Extraction. 21 Traitement Automatique des Langues Naturelles. 2014. pp. 455-460.
Weinstock-Herman E. Automated keyword extraction - TF-IDF, RAKE and TextRank [Электронный ресурс]. URL:
http://www.tiernok.com/posts/automated-keyword-extraction-tf-idf-rake-and-textrank.html (дата обращения: 27.02.2018)