ВЕСТНИК ПЕРМСКОГО УНИВЕРСИТЕТА
2012 Математика. Механика. Информатика Вып.1(9)
ИНФОРМАТИКА. ИНФОРМАЦИОННЫЕ СИСТЕМЫ
УДК 025.4.03
Методы извлечения информации из текста
Л. М. Ермакова
Пермский государственный национальный исследовательский университет Россия, 614990, Пермь, ул. Букирева, 15 [email protected]; +7 (342) 239-62-98
Представлены существующие методы извлечения информации из текстовых данных. Рассматриваются способы извлечения сущностей и отношений. Приводится описание методов автоматического построения онтологий по корпусу, а также способы их оценки. Особое внимание уделяется техникам выделения сущностей и отношений из открытых областей, обработке именованных сущностей, а также идентификации фактов, локализованных во времени.
Ключевые слова: информационный поиск; извлечение информации; сущность; отношение; именованные сущности; временные факты.
нии сущностей занимают проблемы идентификации именованных сущностей и кореференции (разрешение анафорических связей).
Большинство проблем, возникающих при автоматическом построении базы знаний по вебу, связано с количеством и неоднородностью данных. На сегодняшний день в вебе можно найти миллионы сущностей, сотни тысяч классов, сотни типов отношений и сотни тысяч фактов [1, 2].
Наибольшие трудности возникают при извлечении знаний из открытых областей, а также при обработке "временных" знаний.
1. Классификация машинного представления знаний
Машинное представление знаний можно классифицировать следующим образом [1]:
1) фактические знания (factual);
2) таксономия (taxonomic):
a) instanceOf;
b) subclassOf.
3) лексические (терминология, синонимические конструкции) (lexical);
4) многоязычные (переводы)(mu1ti1ingua1);
Введение
Статья представляет собой обзор существующих методов извлечения информации из текстовых данных. Извлечение информации (information extraction) - это разновидность информационного поиска, при которой из неструктурированного текста выделяется структурированная информация.
Фактографический поиск - поиск фактов, соответствующих информационному запросу.
Извлечение информации прежде всего связано с поиском сущностей и отношений. Это один из ключевых этапов предварительной обработки текста, необходимый для реализации более сложных моделей и программ. Базы знаний применяются для снятия омонимии, в обработке текста, семантическом поиске, вопросно-ответных системах, автоматическом понимании текста без учителя (machine reading) [1, 2].
Сущности должны быть отнесены к некоторым категориям. Особое место в извлече-
© Ермакова Л. М., 2012
5) динамические сервисы (dynamic services) (например, "wsdl: погода (местах, время?у)"). WSDL (Web Services Description Language) - язык описания вебсервисов и доступа к ним, основанный на языке XML;
6) свойства на основе здравого смысла (common-sense properties) (например, hasProperty(X,Y));
7) правила на основе здравого смысла (common-sense rules) (например,
т' — ■ л'тТ ■. - \ );
8) временные (temporal) (например, bePre-sident(USA)@1945);
9) открытое извлечение информации (open information extraction) [3-5];
10) социальные (мнения);
11) эпистемические (достоверные и недостоверные убеждения).
Знания могут представляться в виде [1]:
1) правил;
2) фреймов;
3) RDF (Resource Description Framework);
4) онтологий (OWL);
5) логики высшего порядка (Higher-order logics).
Причем храниться могут не только факты, но и метафакты (факты о фактах).
2. Извлечение сущностей и классов
Многие современные работы по семантическому поиску опираются на тезаурус WordNet. Слова в WordNet группируются в синсеты (синонимические ряды), между которым устанавливаются отношения:
1) гипонимии;
2) меронимии;
3) тропонимии (способ, например, "красться" - частный случай "двигаться");
4) импликации ("храпеть" предполагает "спать");
5) антонимии и т.д. [6].
Увеличивается количество работ, связанных с построением онтологий на основе Wikipedia [1]. Например, в онтологии YAGO сущности автоматически извлекаются из Wikipedia и систематизируются при помощи WordNet. Потенциально любая страница Wikipedia может быть сущностью в YAGO. Для установления класса сущности используются категории Wikipedia.
Категории в Wikipedia бывают концептуальные, служебные и тематические. Служебные категории не могут быть классами для сущностей. Они не многочисленны и поэтому их можно исключить вручную. Для того чтобы отличить концептуальные категории от тематических, используют поверхностный лингвистический парсинг имен категорий, а именно парсер именных групп - Noun Group Parser. Парсер именных групп разбивает имя категории на pre-modifier, head и post-modifier. Эвристически было установлено, что большинство концептуальных категорий в Wikipedia имеют форму множественного числа. К этим категориям с- применяется следующий алгоритм:
1. Head ищется в синсетах WordNet.
2. Выбирается наиболее подходящий класс с, который присваивается сущности.
3. Head дополняется pre-modifier. Таким образом, получается, что с1 £ kead* £ с
[7].
Система KOG (Kylin Ontology Generator) также базируется на Wikipedia и WordNet. В качестве обучающей выборки используют онтологию YAGO. При помощи таких методов машинного обучения, как SVM (support vector machine) и MLN (Markov logic network), вычисляются меры сходства между именами категорий. Уточнение категорий производится путем анализа истории изменений. Вычисляются вспомогательные статистики, например, совместное употребление слов [8].
Алгоритм системы SEAL состоит в следующем:
1. Выбирается относительно небольшое количество экземпляров класса (seeds).
2. Ищутся списки, таблицы, фрагменты текста, содержащие seeds.
3. Кандидаты (cands) извлекаются из именных групп в некоторой окрестности.
4. Собирается статистика совстречаемо-сти (seeds&cands, cands&className).
Кандидаты ранжируются в зависимости от поточечной взаимной информации (point-wise mutual information) или другой меры связности и случайного блуждания по графу seeds-cands [1].
3. Определение семантического расстояния
Существует три основных подхода к вычислению семантического расстояния [9]:
1. На основе тезаурусов (WordNet, Roget).
2. На основе корпусов (например, латентный семантический анализ).
3. На основе Wikipedia (WikiRelate, явный семантический анализ ESA).
В простейшем случае расстояние между понятиями вычисляется как кратчайший путь в графе [10]. Модификации могут включать в себя тип связи, глубину иерархии, плотность концептов на некотором уровне иерархии и т.д. Мера связности может быть вычислена по формулам [10]:
Основной недостаток подходов, основанных на тезаурусах, в том, что тезаурусы создаются вручную. Это трудоемкий и дорогостоящий процесс, слабо адаптируемый для новой предметной области [9].
Латентный семантический анализ исходит из гипотезы, что связанные слова встречаются в похожих контекстах [11]. Корпусные методы хорошо работают при наличии очень большого корпуса, что также является трудоемкой задачей.
Расстояние между понятиями можно вычислить как значение TF хIDF для терминов в рамках статьи в Википедии [12]. Страницы Википедии могут быть отображены на синсеты WordNet [13]. При этом для каждого синонима из синсета WordNet извлекаются страницы Википедии с аналогичным названием, редиректом или ссылкой. Помимо синонимов, синсеты включают глоссы и примеры, которые вместе с гипонимами и гиперонимами преобразуются к виду bag-of-words, после чего вычисляется мера сходства с bag-of-words, составленным из заголовка, редирек-тов, категорий и первого абзаца [13]. Сила связи между двумя понятиями, представленными статьями Википедии s и t, может быть определена по формуле [9]
-+ t) =
где Т - множество страниц, ссылающихся на 1, а IV - множество всех страниц Википедии. Взаимосвязь между статьями а и Ь также может быть вычислена как [9]
W
logflWl) ~ log(mm(UL I
юлноты и точности. tComrnonAncestor f
нии п oiveii
полноты обычно применяю'
где A и B - статьи, ссылающиеся на a и b соответственно. Омонимия может быть снята выбором термина, на который чаще всего ссылаются другие статьи, или за счет определения пары с максимальной силой связи. Эти подходы можно совместить [9].
4. Извлечение отношений
При извлечении отношений между сущностями остро встает вопрос о соотноше-
я увеличения иск по шабло--based harvesting), а точность достигается благодаря ограничениям на обоснованность отношений (consistency constraints). Классической задачей информационного поиска является проблема "кто на ком женат" (marriage problem). В такой постановке для увеличения полноты можно использовать следующие шаблоны:
X и ее муж Y;
X и Y во время медового месяца;
X, Y и их дети;
X встречался с Y;
X любит Y; и др.
Однако приведенные шаблоны дают большое количество ложных срабатываний, поэтому целесообразно вводить специальные ограничения, например:
(и’д) — -ііроііїв (ur. v)
Правила позволяют найти несоответствия в выделенных кандидатах. Правила могут быть взвешенными (вероятностные данные).
Логические ограничения и кандидаты, например, могут отображаться в такой вероятностной графической модели, как марковская сеть (Markov Random Field) [14]. Между случайными величинами протягивается дуга, если они появляются в одном утверждении [1]. Применяются также другие вероятностные модели, например, условная модель с ограничениями (Constrained Conditional Models) [15] или CRF (Conditional Random Fields) [16]. Вероятностные зависимости традиционно представляются в виде графов совместной плотности распределения pit,у), где r - целевые атрибуты сущности, а г - известные. При таком подходе возникает проблема моделирования распределения р(д'). которое может иметь сложные зависимости. Вместо этого в CRF моделируется условное распределение | ;■/. В отличие от линейных моделей, CRF может учитывать зависимости, находящиеся на большом расстоянии. Например, если одно и то же имя несколько раз встречается в одном и том же документе, целесообразно выделить все употребления, т.к. они могут содержать дополнительную информацию [16].
При прямом подходе факты считаются истинными. Факты и шаблоны порождают гипотезы, ограничения - утверждения, где гипотезы являются переменными. Система SOFIE учитывает также функциональные зависимости, свойства отношений (асимметричность, транзитивность, ацикличность и т.д.), ограничения включения
(
прение Q Person X Person, ccpitalOfCountry Q city Of Country
), ограничения для конкретных предметных областей [1] [17].
5. Извлечение знаний из открытых областей
Нерешенными проблемами является “временные” знания (temporal knowledge) и извлечение знаний из открытых областей [1]. В предметно-ориентированном поиске факты представляют собой тройку
\ в противном случае
ищутся утверждения (Assertions), т.е. тройки вида X ?atfern х Name. Фразы, нахо-
дящиеся между именами анализируются с целью выявления нового типа отношений. При этом используются:
• бутстрепинг без учителя с коротким путем зависимостей;
• CRF (Conditional random field) для троек вида (существительное, глагольная фраза, существительное);
• построение статистики и удаление редко встречающихся кандидатов [1].
Общий алгоритм бутсрепинга [18]:
1. Выбирается некоторый набор отношений.
2. По корпусу собираются все пары, которые связаны этим отношением.
3. По найденным парам осуществляется поиск новых шаблонов.
4. Ищутся фрагменты текстов, в которых элементы пар встречаются на небольшом расстоянии.
5. Выбираются наиболее частотные шаблоны.
6. Новые отношения добавляются к текущему набору и процесс повторяется. Сергей Брин несколько модифицировал
этот алгоритм, добавив проверку порядка следования [19]. В системе Snowball вводится ограничение на тип именованных сущностей, участвующих в отношении [20]. Основная проблема, возникающая при бутстрепинге, -сильная зависимость от начальной выборки. Система KnowItAll аналогичным образом ищет подходящий класс для сущности [2].
В 2009 году впервые был представлен алгоритм Text Runner [3]:
1. Выбирается небольшое обучающее множество.
2. Запускается парсер, извлекающий тройки вида (NP, отношение, NP), где NP -именная группа.
3. Тройка помечается как положительная, если:
• путь по дереву зависимостей между
сущностями короткий;
• путь по дереву зависимостей не пере-
секает границы фразы;
• ни одна из именных фраз не выражена
местоимением.
В противном случае она помечается как отрицательная.
4. Обучается наивный байесовский классификатор по таким признакам, как части речи в узком контексте, стоп-слова и т.д.
5. На большом корпусе:
• запускается парсер, осуществляющий
разметку частей речи;
• осуществляется поиск именных групп;
• извлекается текст, находящийся меж-
ду именными группами;
• с помощью эвристик производится
упрощение извлеченных фрагментов;
• кандидаты поступают на вход класси-
фикатору;
• отбираются достоверные кандидаты;
• вычисляется вероятность каждого от-
ношения.
В 2009 г. в Стэндфордском университете была выдвинута гипотеза: если известно, что две сущности связаны некоторым отношением, любое предложение, содержащее эти сущности, выражает то же самое отношение. Вместо размеченного корпуса и бутстрепинга было предложено использовать базу данных отношений. Для каждой пары сущностей из базы данных выбираются предложения, содержащие эти сущности, и удаляются шумовые признаки. Далее применяется классификатор [21].
6. Временные знания
Другая группа проблем связана с так называемыми временными знаниями. Примером временных знаний может послужить та же задача "marriage problem", так как одни и те же факты могут быть истинными или ложными в разное время (например, в случае развода, смерти одного из супругов, нового брака и т.д.). Простым решением этого вопроса является проверка взаимной непротиворечивости фактов (например, проверка того, живы ли оба супруга в некоторый момент времени). Однако еще больше трудностей возникает, если даты заданы неявно, т.е. относительно других дат (например, "год назад", "в детстве", "во времена Ивана Грозного" и т.д.). Если конструкции типа "во время Великой Отечественной войны" или "в прошлом году" достаточно четко очерчены, то такие обороты, как "в детстве", "в зрелом возрасте", "затем" не имеют однозначных границ. При повествовании обычно также неявно предполагается относительный порядок событий [1].
Алгоритм TIE рассматривает предложения как изолированные. На первом этапе работы алгоритма производится предварительная обработка. Осуществляется синтаксический разбор предложения, у найденных глаголов ищутся зависимости, помечаются глаголы, обозначающие события, и находятся все временные маркеры. Найденным событиям приписываются временные атрибуты. Помимо признаков, относящихся к отдельным событиям, определяются параметры для пар
элементов. Эмпирически было установлено, что многие синтаксические зависимости показывают также временную соотнесенность. Для каждого вида зависимости деа(у. ,vtj. j проверяется, являются ли W; и Hj- частями выражений я, и т. соответственно. Если условие выполняется, то для х и j указывается зависимость dap (д-, , X- ). Если событие е не имеет зависимостей, то создается признак ptoximi ty (9, jr). где т - ближайший элемент в дереве разбора. Для глаголов, помеченных как события, применяются правила MLN (Markov logic network) [22].
В институте информатики Макса Планка (Max Planck Institute of Informatics) был разработан подход на основе анализа ограничений и графа конфликтов. Факты рассматриваются как подмножество декартового произведения отношений на сущности facts с. (Relation х £nt: ty xfntity). Фактам присваивается вес weight \ facts —'К.'. Факты являются истинными в определенном временной интервале Tirnelnterval: facts — intervals, Вводятся два типа ограничений: временные и невременные. К временным ограничениям относятся следование и непересечение, в невременным - взаимное исключение. Непротиворечивые факты, удовлетворяющие запросу, максимизируют сумму весов фактов, удовлетворяющих ограничениям:
FZFZtCt^
где множество F удовлетворяет всем ограничениям.
Строится граф, в котором отношения являются вершинами, а ограничения - ребрами. После процедуры упорядочивание граф должен удовлетворять следующим условиям:
• граф является трехдольным
• вершины, принадлежащие множеству V. должны иметь циклы взаимного исключения;
• множество вершин V- может иметь циклы непересечения;
• ребра с меткой before должны идти от вершины из множества к V, и V3 или от V3 к V-.
Поиск по графу осуществляется следующим образом:
• ищутся вершины, удовлетворяющие запросу;
• для каждой вершины в базе данных ищется множество фактов. Если множество не пустое, поиск ведется по не посещенным соседям [23].
7. Извлечение именованных сущностей
Под именованными сущностями обычно понимают объекты определенного типа, имеющие имя, название или идентификатор, например, организации, места, люди, события и т.д. Компонента выделения сущностей обычно входит в вопросно-ответные системы. Многие вопросы предполагают в качестве ответа именованную сущность определенного типа (например, вопрос "кто? " предполагает имя человека, "где? " - место).
В обработке текстов на естественных языках существуют три основных задачи, связанных с именованными сущностями:
1) обнаружение именованных сущностей;
2) разрешение кореференции;
3) снятие омонимии [1].
Помимо задачи автоматического извлечения знаний из текста, разрешение проблемы неоднозначности применяется в информационном поиске. В зависимости от типа именованной сущности результатом выдачи на запрос может быть то или иное множество текстов (например, аббревиатура MLN может относиться к Minuteman Library Network, My LEGO Network, Manage Large Networks, Markov logic network или просто быть сокращением от million). При наличии профайла или статистики запросов поисковик может произвести ранжирование так, чтобы оно максимально соответствовало информационной потребности пользователя. Кроме того, снятая омонимия позволяет лучше классифицировать документы.
Большинство именованных сущностей встречаются крайне редко даже в достаточно большом аннотированном корпусе [16].
Для извлечения именованных сущностей применяются несколько типов признаков:
1) признаки уровня слов (N-граммы, суффиксы, префиксы, части речи и т.д.);
2) признаки уровня документа (наличие акронимов в корпусе, позиция термина в предложении, наличие термина в заголовке или тексте и т.д.);
3) дополнительная информация (газетиры, слова указатели, например, Inc. , Corp.,
списки стоп-слов, слов с капитализацией, которые не являются именованными сущностями и т.д.).
В пределах одного документа может быть несколько вхождений одного и того же имени, которое может относиться к одной сущности или же к различным объектам. В простейшем случае обычно исходят из предположения, что в одном документе одно и то же имя относится к одной и той же сущности. Многие методы извлечения именованных сущностей исходят из предположения об их независимости. На самом же деле они зависят от соседних слов, например, New York - место, а New York Times - организация. Предположение о зависимости именованных сущностей от соседних слов используется в HMM (Hidden Markov Model) и CRF моделях [16]. Существуют техники, опирающиеся на гипотезу, что одинаковые термины должны иметь одинаковые метки во всем корпусе, а не только в рамках одного документа. В случае неразмеченных данных проводят кластеризацию, а номер кластера используется в качестве классифицирующего признака [24].
8. Методы оценки качества извлечения информации
В задачах обработки текста на естественном языке выделяют четыре типа функций потерь, характеризующих потери при неправильном принятии решений на основе наблюдаемых данных:
1) функции потерь, реально существующие в мире, например, потеря денег, времени и т.д. (обычно они не известны);
2) функции экспертной оценки (адекватность оценки, релевантность и т.д.);
3) автоматические методы оценки на основе корреляции (например, BLEU - Bilingual Evaluation Understudy, ROUGE - Recall-Oriented Understudy For Gisting Evaluation, WER - Word Error Rate, mAP - Mean Average Precision). Эти методы предполагают сравнение с более высокими результатами. В начале работы алгоритмов требуется участие экспертов;
4) автоматические "интуитивные" методы (аккуратность, F-мера, AER - Alignment Error Rate). В этом случае также требуется участие экспертов, но результаты ни с чем не сравниваются [25].
Существует несколько подходов к оценке методов выделения именованных сущностей:
1. Метод точного соответствия: именованная сущность выделена верно, если ее категория и границы, определенные системой, совпадают с классом и границами, размеченными в корпусе, иначе
- неверно. В этом случае
2>. Кес аЛ1х Р гесш он
L, где Recall - отноше-
Рпсжйоа-fRMj.il
ние количества верно выделенных сущностей к общему числу сущностей в корпусе, a Precision - отношение количества верно выделенных сущностей к числу всех выделенных сущностей. Данный метод подвергается критике, т.к. сильно зависит от ошибок, допущенных аннотаторами.
2. Ошибки могут ранжироваться в зависимости от их категории:
a) ошибки в определении класса;
b) ошибки в определении границ;
c) ошибки в определении и класса, и
границ [26].
Заключение
Извлечение информации является ключевым этапом в построении сложных систем информационного поиска, в т.ч. вопросноответных системах.
Несмотря на разнообразие существующих методов извлечения информации из неструктурированных данных, а именно текстовых корпусов, до сих пор не решены ключевые проблемы информационного поиска, связанные с автоматическим построением баз знаний. Многие методы опираются на существующие онтологии (например, WordNet). Наименее разработанными являются такие области, как извлечение знаний из открытых областей, поиск фактов, локализованных во времени, а также извлечение именованных сущностей. Методы оценки систем извлечения информации также нуждаются в доработке, т.к. опираются на сравнение с эталонной разметкой корпуса.
Проблема извлечения именованных сущностей связана, прежде всего, с тем, что даже в большом корпусе они встречаются редко. Вторая трудность заключается в открытости класса. Если крупные географические объекты относительно полно покрываются газетирами, то другие именованные сущности достаточно быстро могут появиться
в корпусе, однако их регистрация в списках требует значительного времени. Третья проблема сводится к проблеме снятия омонимии.
Большинство фактов локализовано во времени. Проблема стоит в автоматическом определении этих временных границ. Существуют достаточно хорошие решения в случае точного указания дат, а также при наличии взаимоисключающих фактов. Но в реальных текстах временные границы часто задаются нечетко ("в детстве", "в старости" и т.д.). Предположение о взаимном исключении фактов даже в классической задаче Marriage Problem не всегда истинно (как например, в странах, где узаконены полигамные отношения).
Таким образом, несмотря на все существующие разработки, количество людей и компаний, вовлеченных в автоматическое извлечение знаний из текстов, до сих пор не решены важные проблемы информационного поиска.
Список литературы
1. Weikum G. Knowledge Harvesting from Web Sources // RuSSIR/EDBT 2011. Saint Petersburg. 2011.
2. Etzioni O., Banko M., Cafarella M.J. Machine Reading // Proceedings of AAAI. 2005.
3. Banko M. Open Information Extraction for the Web. Washington: University of Washington. 2009.
4. Banko M. et al. Open Information Extraction from theWeb // Communications of the ACM
- Surviving the data deluge, New York, 51, №12. 2008.
5. Wu F., Weld D.S. Open Information Extraction using Wikipedia // Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. 2010. P. 118-127.
6. Miller G.A., Beckwith R., Fellbaum C. Introduction to WordNet: An On-line Lexical Database. 1993.
7. Suchanek F.M., Kasneci G,. Weikum G. YAGO: A Core of Semantic Knowledge // WWW 2007 / Track: Semantic Web. 2007.
8. Wu F., Weld D.S. Automatically refining the wikipedia infobox ontology // WWW. 2008.
9. Milne D., Witten I.H. An Effective, Low-Cost Measure of Semantic Relatedness Obtained from Wikipedia Links // Proceedings of AAAI. 2008. P. 25-30
10. Mchale M.A Comparison of WordNet and Roget's Taxonomy for Measuring Semantic Similarity // Proceedings of COLING/ACL Workshop on Usage of WordNet in Natural Language Processing Systems. 1998. P. 115— 120.
11. Landauer, T. K.; Foltz, P. W.; Laham, D. Introduction to Latent Semantic Analysis // Discourse Processes, № 25. 1998. p. 259-284.
12. Gabrilovich, E.; Markovitch, S. Computing Semantic Relatedness using Wikipedia-based Explicit Semantic Analysis // Proceedings of the 20th International Joint Conference on Artificial Intelligence. 2007. p. 1606-1611.
13. Niemann, E.; Gurevych, I. The People’s Web
Meets Linguistic Knowledge: Automatic
Sense Alignment of Wikipedia and WordNet // International Conference on Computational Semantics. 2011.
14. Richardson, M.; Domingos, P. Markov Logic Networks // Machine Learning, MA, 62, № 1-
2. 2006.
15. Kundu, G.; Roth, D.; Samdani, R. Constrained Conditional Models For Information Fusion // Proceedings of the 14th International Conference on Information Fusion, 5-8 July 2011. p. 1 - 8.
16. Sutton, C.; Mccallum, A. An Introduction to Conditional Random Fields for Relational Learning // L. Getoor and B. Taskar, editors, Introduction to Statistical. 2006.
17. Suchanek, F. M.; Sozio, M.; Weikum, G. SO-FIE: A Self-Organizing Framework for Information Extraction // WWW. 2009.
18. Hearst, M. A. Automatic acquisition of hypo-nyms from large text corpora // COLING '92 Proceedings of the 14th conference on Com-
putational linguistics. 1992.
19. Brin, S. Extracting patterns and relations from the World-Wide Web // Proceedings of on the 1998 International Workshop on Web and Databases. 1998.
20. Agichtein, E.; Gravano, L. Snowball: Extracting Relations from Large Plain-Text Collections // Proceedings of the 5th ACM International Conference on Digital Libraries (DL). 2000.
21. Mintz, M. et al. Distant supervision for relation extraction without labeled data // Proceedings of the 47th Annual Meeting of the ACL and the 4th IJCNLP of the AFNLP. 2009.
22. Ling, X.; Weld, D. S. Temporal Information Extraction // AAAI. 2010.
23. Dylla, M.; Sozio, M.; Theobald, M. Resolving Temporal Conflicts in Inconsistent RDF Knowledge Bases. 2011.
24. Ratinov, L.; ROTH, D. Design Challenges and Misconceptions in Named Entity Recognition // Proceedings of the Thirteenth Conference on Computational Natural Language Learning. 2009.
25. Manning, C. The Art of Loss Functions // Natural Language Processing Blog. 2006.
26. Manning, C. Doing Named Entity Recognition? Don't optimize for F1 // Natural Language Processing Blog. 2006.
Methods of Information Extraction from Text
L.M. Ermakova
Perm State National Research University, Russia, 614990, Perm, Bukireva st., 15 [email protected]; +7 (342) 239-62-98
The article presents the overview of existing methods of information extraction from text data. Entity and relation extraction are considered. Automatic construction techniques from text corpora as well as evaluation metrics are studied. Special attention is paid to open-domain extraction, named entity recognition and temporal facts.
Key words: information retrieval; information extraction; entity; relation; named entity; temporal facts.