Методы и средства поиска информации в коллекциях научно-технических текстов
Савостин П.А., МГУ им. Ломоносова
ре1егеауо81;т@§таП. сот Ефремова Н.Э., МГУ им. Ломоносова [email protected]
Аннотация
В настоящее время доступно огромное количество научной информации. В связи с этим возникает проблема поиска среди нее интересующих пользователя сведений и документов.
В работе описывается создаваемое нами программное средство поиска информации в коллекциях научно-технических статей. На данный момент средство позволяет разбивать коллекцию на тематические группы и осуществлять поиск по разным видам запросов.
1 Введение
В настоящее время пользователи, заинтересованные в изучении актуальных научных материалов, сталкиваются с двумя основными проблемами. Первая проблема состоит в том, что количество научной информации огромно и ее появление невозможно отслеживать вручную за приемлемое время. Вторая проблема связана с особенностями реализации обычных поисковых систем, которые не всегда позволяют находить релевантную научную информацию по запросам пользователя.
В последние годы появились программные средства, облегчающие поиск именно научной информации. Среди зарубежных разработок можно указать Google Scholar и ACL Anthology.
Google Scholar [7] осуществляет поиск по полным текстам научных публикаций на разных языках. В качестве запроса здесь могут быть указаны ключевые слова или фрагменты документа, включая ссылки на литературу. Также доступен расширенный поиск, позволяющий использовать в запросе логические операции, искать статьи определенных авторов и т.д. К результатам поиска могут применяться фильтры по дате и виду документов (патенты, цитаты). Основным недостатком данного сервиса является то, что на длину
запроса налагается ограничение, и это не позволяет задавать для поиска достаточно длинный текстовый фрагмент.
ACL Anthology [5] организует поиск по трудам англоязычных конференций, связанных с компьютерной лингвистикой. В качестве запроса здесь можно указывать ключевые слова (не более 4), уточняя, к какому полю они относятся. В качестве полей выступают автор, название статьи, год выхода, название конференции и т.п. Результаты поиска, в свою очередь, могут быть отфильтрованы по этим же полям. По полным текстам статей в данной системе поиск не осуществляется.
Среди отечественных разработок следует упомянуть сервис поиска по материалам Российской Государственной библиотеки (сервис РГБ) и систему Exactus Expert.
Сервис РГБ [3] осуществляет поиск по имеющимся в ней материалам. В качестве запроса данному сервису можно задать ключевые слова и предложения, но запрос, опять же, ограничен по количеству символов.
Для улучшения результатов поиска можно воспользоваться расширенным и профессиональным поиском, которые позволяют использовать в запросе логические операции и указывать, по каким полям документа (автор, заглавие, содержание и пр.) должен вестись поиск. Кроме того, документ можно найти по его идентификатору в библиотеке, например, шифру хранения.
В качестве результатов сервис РГБ возвращает цитаты из документов, соответствующих поисковому запросу. Если документ находится в открытом доступе, то есть возможность ознакомиться с его полным текстом.
К результатам поиска так же могут быть применены различные фильтры: тип доступа (открытый/ограниченный), год издания, специальность ВАК и др.
Что касается системы Exactus Expert [4], то она предлагает пользователям широкий набор
возможностей по работе с научными статьями, включая изучение текущего состояния исследований в той или иной области, оценку качества научных публикаций и пр. Поиск осуществляется по материалам различных конференций, научным журналам, зарубежным и российским патентам. В качестве поискового запроса могут быть указаны ключевые слова и фрагменты текста. Доступен расширенный поиск и поиск по структуре статьи, в частности, по списку источников.
Таким образом, основной способ задания поискового запроса в рассмотренных системах - указание слов, которые должны содержаться в релевантных документах. При этом, слова из запроса могут искаться как во всем документе, так и в его определенных частях: списке авторов, названии, аннотации, основном тексте и т.д. Обычно методы, осуществляющие поиск по такому виду запроса, рассматривают тексты и сам запрос в виде векторов слов, для которых с помощью специальных мер вычисляется степень схожести [2].
Если используют именно коллекцию научных текстов, то для улучшения результатов поиска по ней нередко прибегают к предварительному разбиению документов на тематические группы [6]. При решения этой задачи используются методы кластеризации [2] и латентно-семантического анализа [6], которые основываются на предположении, что словарный состав документа и частота употребления в нем слов зависят от обсуждаемой темы.
Заметим, что если коллекция текстов уже разбита на группы, то в этом случае можно воспользоваться методами классификации [1], которые с помощью мер схожести позволят определить группу документов, наиболее близких к заданному запросу.
В данной статье рассматривается разрабатываемое нами программное средство поиска информации в коллекциях научно-технических текстов. На данный момент средство предоставляет возможность разбивать коллекцию на тематические группы и осуществлять в ней поиск документов по ключевым словам.
2 Методы поиска в коллекции документов
2.1 Методы поиска по ключевым словам
Перед применением любого метода поиска необходимо определить способ представления поискового запроса и коллекции документов. На практике чаще всего используется векторная модель, в которой каждый документ и, соответственно, запрос представляются как вектор (набор) слов без информации об их порядке и связях между ними. Словам приписываются веса, отражающие частоту их употребления в текстах. Одной из наиболее часто используемых весовых функций является функция TF-IDF [2].
В процессе поиска для документа и запроса, представленных в векторном виде, определяется степень их схожести (релевантности), для чего применяются специальные меры. Как правило, получаемые векторы имеют большую размерность (порядка 10000 и более измерений) и сильно разрежены, поэтому наиболее используемой является косинусная мера сходства, которая учитывает только ненулевые измерения [2].
Стоит также заметить, что существуют такие функции, которые позволяют одновременно вычислять веса слов и релевантность между запросом и документом. Таковыми являются функции ранжирования семейства BM25 (Best Match), которые хорошо зарекомендовали себя в рамках экспериментов TREC (Text Retrieval Conference) [9].
Ниже приведен самый распространенный вид BM25 [2]:
л V OV-fij+G.5) (fci+1)*/, (fe2 + l) щ (fii + 0.5) K+f. kz+q
Здесь
N - количество документов в коллекции, ni - количество документов, содержащих слово i,
f - частота слова i в документе D (TF-компонента),
qfi - частота слова i в запросе Q,
k1, k2 - свободные коэффициенты,
K - коэффициент нормализации TF-
компоненты.
Функции семейства BM25 схожи с TF-IDF тем, что в них есть TF- f) и DF-компоненты (ni). Кроме того, за счет свободных коэффициентов BM25 может подстраиваться под определенную коллекцию, учитывая, например, среднюю длину документов.
Стоит отметить, что данная функция также позволяет учитывать обратную связь по релевантности, т.е. если известна информация о релевантности документа для заданного запроса, с помощью коэффициентов можно настроить для функции нужные значения.
2.2 Методы разбиения на тематические группы
Для улучшения результатов поиска по коллекции нередко прибегают к предварительному разбиению документов на тематические группы. В зависимости от используемого метода тематическая группа может называть по-разному:
• при использовании методов классификации - класс;
• при использовании методов кластеризации - кластер;
• при использовании латентно-семантического анализа (ЛСА) - тема.
Выбор того или иного метода зависит от того, доступна ли размеченная обучающая выборка.
Если обучающая выборка доступна, то можно воспользоваться методами классификации, которые по имеющемуся распределению документов позволяют определить, к каким классам будет относиться новый документ [1].
Для представления документов в этом случае можно использовать векторную модель, описанную в предыдущем разделе. Принадлежность нового документа к классу определяется исходя из выбранного метода. Например, в методе kNN документ й относится к тому классу, к которому принадлежит большинство из к наиболее схожих с й документов.
В случае отсутствия размеченной выборки применяются методы кластеризации и латентно-семантический анализ.
Идея методов кластеризации состоит в том, чтобы собрать наиболее похожие документы в единый кластер, а отличающиеся друг от друга документы отнести к разным кластерам. При этом, документы, как правило, представляются в виде векторов, а в качестве функции схожести используются евклидово или манхэттенское расстояние, косинусная мера сходства и т.д. [2]. Отметим, что методы кластеризации требуют явного задания количества кластеров.
В свою очередь ЛСА опирается на идею, что документы коллекции можно разбить по
темам в зависимости от того, какие слова встречаются в этих документах [6].
При применении ЛСА коллекция документов представляется в виде матрицы, элементами которой являются частоты употребления слов в документах. Метод осуществляет разложение этой матрицы на произведение двух других матриц: одна выражает взаимосвязь между словами и темами, вторая - между темами и документами. Стоит отметить, что, как и в методах кластеризации, здесь нужно заранее указывать количество тем.
3 Программное средство поиска
в коллекции научно-технических текстов
Результатом нашей работы стало программное средство, которое на данный момент позволяет:
• разделять текстовую коллекцию на тематические группы;
• осуществлять поиск по ключевым словам;
• обновлять существующую коллекцию документов.
В качестве результата пользователю возвращается список документов в порядке убывания их релевантности. Релевантными считаются документы, в которых присутствуют слова из запроса.
Наше средство позволяет пользователю работать с уже существующей и, соответственно, разбитой на группы коллекцией текстов. Также пользователю предоставляется возможность обновления существующей коллекции научных статей. Для этого был написан веб-краулер, позволяющий выгружать документы с сайтов научных конференций.
Для обновленной коллекции возможно отнесение новых статей к существующим группам или разбиение всей коллекции на группы заново.
4 Тестирование программного средства
Полученное программное средство поиска было протестировано на коллекции научных текстов с конференции Conference on Empirical Methods in Natural Language Processing за 2013 год.
Для разбиения этой коллекции на тематические группы были использованы методы It-means и ЛСА. В идеале, коллекция должна
быть разбита на 4 группы, соответствующие подсекциями данной конференции:
• Automatic text summarization.
• Parsing.
• Semantic analysis.
• Word segmentation.
Для оценки качества кластеризации использовалась F-мера [2] - см. Таблицу 1. Из результатов видно, что метод ЛСА работает лучше, чем метод k-means.
Тестирование разбиения на группы с помощью методов классификации проводилось на материалах той же конференции. Были рассмотрены два метода: наивный байесовский классификатор (NB) и метод опорных векторов ^УМ) [8].
Для представления документов векторная использовалась модель текста, в качестве весов рассматривалась частота употребления слова.
Для оценки качества использовались аккуратность (А), ^-мера с микро- и макроусреднением. Полученные результаты представлены в Таблице 2.
Таблица 2. Оценка методов классификации
При тестировании поиска документы коллекции и запрос рассматривались как вектора слов. Было рассмотрены:
• вычисление веса с помощью TF-IDF, в качестве меры схожести - косинусная мера;
• BM25.
Для оценки качества выбранных методов были использованы меры Average Precision и Discounted Cumulative Gain (DCG).
Мера DCG обычно используется для оценки качества работы рекомендательных систем [2]. В отличие от Average Precision она учитывает порядок выдачи документов. Данная мера вычисляется по следующей формуле:
fc г
v^ 2rei'-l DCGk = ^ lQg ^
В данном случае reí, - оценка релевантности для /-ого документа (число от 0 до n). Чем больше значения этой меры, тем лучше работает метод поиска.
Полученные результаты представлены в Таблице 3. Тестирование показало, что на рассмотренной коллекции метод BM25 работает лучше TF-IDF.
TF-IDF BM25
Average Precision 0.483 0.710
DCG 10.237 13.266
Таблица 3. Оценка методов поиска по ключевым словам
5 Дальнейшая работа
В качестве развития функциональных возможностей предложенного программного средства планируется:
• Создание пользовательского веб-интерфейса.
• Улучшение качества поиска и разбиения коллекции на тематические группы.
• Возможность использования расширенного поиска.
• Учет при поиске структуры документа.
• Фильтрация полученных результатов.
• Организация поиска по образцу и списку литературы.
Если в качестве запроса указан документ или его фрагмент, то подразумевается, что они выступят в качестве образца, на который должны быть похожи найденные тексты.
Если в качестве запроса задан список литературы, то в этом случае планируется искать документы с похожей библиографией, что могут обеспечить поиск по ключевым словам и образцу, либо выдавать все документы, указанные в списке.
Также предполагается давать возможность пользователю помечать более или менее релевантные с его точки зрения документы, и в дальнейшем учитывать его предпочтения.
Метод F-мера
k-means 0.756
ЛСА 0.872
Таблица 1. Оценка методов k-means и ЛСА
A F-мера макро F-мера микро
NB 0.68 0.797 0.704
SVM 0.8 0.668 0.8
Список литературы
1. Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягу-нова Е.В. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика : учеб. пособие - М.: МИЭМ, 2011. -272 с.
2. Маннинг К.Д., Рагхаван П., Шютце Х. Введение в информационный поиск, 2014
3. Сайт Российской Государственной Библиотеки /Электронный ресурс]. - Электрон. дан. - URL: http://www.rsl.ru/ (дата обращения: 10.03.2018)
4. Сервис поиска и анализа научных публикаций Exactus Expert /Электронный ресурс]. - Электрон. дан. -http://expert.exactus.ru/ (дата обращения: 10.03.2018)
5. ACL Antology /Электронный ресурс]. - Электрон. дан. - URL: http://aclweb.org/anthology/ (дата обращения: 10.03.2018)
6. BigARTM [Электронный ресурс]. -Электрон. дан. - URL: http://bigartm.org (дата обращения: 10.03.2018)
7. Google Academy [Электронный ресурс]. - Электрон. дан. - URL: http://scholar.google.ru/ (дата обращения: 10.03.2018)
8. Krebel B. Pairwise classification and support vector machines // B. Scholkopf, C. J. C. Burges, A. J. Smola, editors. Advances in Kernel Methods - Support Vector Learning. Cambridge, MA, 1999. MIT Press. P. 255-268.
9. Stephen E. Robertson, Steve Walker, Susan Jones, Micheline Hancock-Beaulieu, and Mike Gatford. "Okapi at TREC-3". Proceedings of the Third Text Retrieval Conference (TREC 1994). Gaithersburg, USA. November 1994. NIST SP 500-225, 1995, 109-126.