Научная статья на тему 'Подход к извлечению информации о событиях в энергетике (на материале новостных сообщений информагентств)'

Подход к извлечению информации о событиях в энергетике (на материале новостных сообщений информагентств) Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
78
18
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИЗВЛЕЧЕНИЕ ИНФОРМАЦИИ / ОНТОЛОГИЯ ЭНЕРГЕТИКИ / ПРЕДМЕТНЫЙ СЛОВАРЬ / ЖАНР ТЕКСТА / МОДЕЛЬ УПРАВЛЕНИЯ / МОДЕЛЬ ИЗВЛЕЧЕНИЯ ФАКТА

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Кононенко Ирина Семеновна, Сидорова Елена Анатольевна, Веремьянина Алиса Олеговна

Предлагается подход к решению задачи извлечения информации о событиях в области энергетики из текста новостной заметки. Используемая база знаний включает онтологию предметной области и лингвистические ресурсы: словарь семантически размеченной предметной лексики, словарь моделей управления предикатных лексем, модель формальной и жанровой сегментации текста, и схемы извлечения фактов, которые связывают обнаруженные в тексте термины и конструкции с элементами онтологии.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Кононенко Ирина Семеновна, Сидорова Елена Анатольевна, Веремьянина Алиса Олеговна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The paper describes an approach to automatic extraction of information about events in the fuel and energy sector from the web news reports. The knowledge base of the event extraction system consists of energetics ontology and linguistic resources. Domain vocabulary includes terms with semantic features that indicate to ontological concepts. Government patterns represent valences of predicate words and their possible fillers described in terms of semantic and syntactic features. Segmentation rules explicate formal and genre structure of the text. The process of analyses is based on event extraction schemes which relate terms and patterns to ontology elements.

Текст научной работы на тему «Подход к извлечению информации о событиях в энергетике (на материале новостных сообщений информагентств)»

УДК 004.912, 004.82

ПОДХОД К ИЗВЛЕЧЕНИЮ ИНФОРМАЦИИ О СОБЫТИЯХ В ЭНЕРГЕТИКЕ (НА МАТЕРИАЛЕ НОВОСТНЫХ СООБЩЕНИЙ ИНФОРМАГЕНТСТВ)1

Кононенко Ирина Семеновна

Н.с., Институт систем информатики им. А.П. Ершова СО РАН, 630060 г. Новосибирск, пр. Лаврентьева 6, e-mail: [email protected]

Сидорова Елена Анатольевна С.н.с., Институт систем информатики им. А.П. Ершова СО РАН, 630060 г. Новосибирск, пр. Лаврентьева 6, e-mail: [email protected] Веремьянина Алиса Олеговна Студент, Новосибирский национальный исследовательский государственный университет, 630060 г. Новосибирск, ул. Пирогова 2, e-mail: elkor [email protected]

Аннотация. Предлагается подход к решению задачи извлечения информации о событиях в области энергетики из текста новостной заметки. Используемая база знаний включает онтологию предметной области и лингвистические ресурсы: словарь семантически размеченной предметной лексики, словарь моделей управления предикатных лексем, модель формальной и жанровой сегментации текста, и схемы извлечения фактов, которые связывают обнаруженные в тексте термины и конструкции с элементами онтологии.

Ключевые слова: извлечение информации, онтология энергетики, предметный словарь, жанр текста, модель управления, модель извлечения факта.

Введение. Отслеживание и анализ новостной информации о событиях в сфере топливо- и энергообеспечения актуально для жизнедеятельности субъектов экономики и общества. Свежая информация о событиях в энергетике поступает к читателю из различных источников, в том числе из интернет-СМИ, в виде неструктурированных и часто дублирующих друг друга текстов новостных сообщений. С этой точки зрения представляют интерес системы, которые, работая с множеством текстов, обеспечивают а) автоматический тематический отбор, оценку степени сходства и устранение дубликатов и б) анализ и структурирование новостной информации в виде фактов. В фокусе внимания данной работы находится вторая задача, которая предполагает структурирование извлекаемой целевой информации (сущности и ситуации) путем распознавания в текстах соответствующих языковых конструкций [6, 12, 13].

В большинстве современных систем извлечения информации используются определенные ограничения относительно типа (жанра) текстов (досье, объявления, описания медицинских исследований, новостные тексты) и целевой информации [3, 5, 15]. По типу извлекаемой информации система может быть нацелена на извлечение только именованных сущностей (персоны, организации, географические объекты, и т.п.), ситуаций определенного типа, нескольких типовых ситуаций в ограниченной предметной области. Известные системы различают полнота и роль синтаксического анализа в процессе извлечения

1 Работа выполняется при финансовой поддержке РФФИ (проект № 15-07-04144).

фактической информации из текстов. Так, технология [5] предполагает построение полного семантико-синтаксического дерева предложения, к которому применяются шаблоны (своего рода фильтры), описывающие искомые факты. В [4] синтаксический анализатор применяется локально (при обнаружении ключевых единиц и их конфигураций). Подходы к решению задачи разделяются на две группы: методы машинного обучения [15], требующие большого корпуса размеченных текстов, и лингвистические методы, основанные на правилах [3]. Как отмечается в [14], второй подход является более предпочтительным, как по мощности, так и с точки зрения возможностей объединения с элементами первого. Существенным недостатком системы, основанной на правилах, является трудоемкость настройки на конкретную предметную область и плохая адаптируемость к другим областям [1].

Отличительной чертой предлагаемого подхода к извлечению информации о событиях в области энергетики из новостных заметок является ориентация используемых лингвистических описаний на структуру конкретной онтологии: информация словарей, семантико-синтаксических моделей управления и схем извлечения фактов существенным образом опирается на структуру онтологии энергетической отрасли. При данном подходе преимущественное использование лексико-семантической информации не исключает применения частичного синтаксического анализа и синтаксических ограничений, накладываемых на семантический каркас концептуальных схем фактов.

1. Модель знаний. Все знания, используемые в предлагаемом подходе, в той или иной мере опираются на модель предметной области (ПО), которая фиксирует понятия и отношения в виде онтологии. Онтология энергетики включает иерархии классов Энергетических объектов и Ресурсов, классификацию Организаций с характеристиками, отражающими их деятельность, классы Деятельность и Событие, классы, представляющие локативные и временные характеристики, а также отношения между объектами [9]. Онтология определяет, какую именно информацию следует извлекать из доступных источников данных и способ (формат) ее представления.

Модель знаний о подъязыке предметной области представлена семантическими словарями (словарь предметной лексики, словари лексических шаблонов и семантико-синтаксических моделей управления), моделями фактов, описывающими способы выражения информации, принятые в рассматриваемой области знаний [11], а также знаниями об особенностях жанра рассматриваемых текстовых источников.

2. Текстовая коллекция. В данной работе используются тексты новостного жанра, взятые с сетевого издания российского агентства международной информации «РИА Новости», посвященные разделу «Энергетика», а также новостные сообщения с сайтов крупных энергетических организаций. Тексты коллекции относятся к жанру новостной заметки, который характеризуется, прежде всего, краткостью и новизной. Это максимально короткое изложение фабулы событий (факта) с точным указанием того, что, где, когда и при каких обстоятельствах произошло. Изложение жестко выдерживает композиционное построение по принципу «перевернутой пирамиды» (от главного к второстепенному) [7].

Основное содержание сконцентрировано в анонсе новости, включающем два жанровых блока: хэдлайн (заголовок, представленный обычно простым коротким предложением, излагающим фокусную информацию новости) и лид (развернутый подзаголовок, представленный в виде абзаца, который дополняет хэдлайн как более полное изложение сути новости). Анонс помещается на главной странице сайта, образуя

информационную ленту новостей, из которой читатель может перейти на страницу заметки. После анонса в тексте заметки следуют бэкграунд (подоплека, справочная информация, контекст события и т.д.), цитаты от лиц, связанных с новостью, и другие содержательные блоки.

Таким образом, жанровую модель рассматриваемых текстов можно представить следующей упрощенной схемой.

PageGenre Новостная_заметка Block genre_segment Анонс

Block genre_segment Хэдлайн Block segment Мета (опционально) Block genre_segment Лид Block segment Бэкграунд

Исходный корпус веб-страниц был очищен от элементов веб-форматирования с сохранением «полезных» элементов разметки (выделение заголовков, гиперссылок и т.п.) [2] и на их основе построена разметка жанровой структуры текста.

Приведем пример анонса новостной заметки с жанровой разметкой.

<Хэдлайн>"Транснефть" возобновила прокачку нефти по нефтепроводу под Самарой </Хэдлайн > <Мета><а>© РИА Новости. Светлана Майорова</а> МОСКВА, 13 июля - РИА Новости. </Мета> <Лид>"Транснефть" с 11 июля возобновила в полном объеме прокачку нефти по магистральному нефтепроводу "Альметьевск - Куйбышев 1" в Самарской области, где произошел разлив нефти в результате криминальной врезки, сообщил РИА Новости советник президента "Транснефти" Игорь Демин.</Лид >

Использование знаний о жанре текста позволяет значительно ограничить разнообразие способов передачи информации, учитываемых в моделях фактов. Так, показателями ситуаций, представляющих основную деятельность операторов энергетики, являются лексемы, описывающие конкретные виды деятельности. По форме это глаголы в личной форме, причастия (действительные и страдательные), деепричастия, отглагольные существительные. Однако в блоке хэдлайн, представленном обычно простым предложением, разнообразие форм сводится к конструкциям с личным глаголом и отглагольным существительным.

3. Словарь. Система семантических признаков в словаре основана на структуре конкретной онтологии, отражая иерархию ее объектов и отношений. Объектные термины представлены преимущественно существительными (нарицательными и собственными именами), именными группами, лексическими конструкциями (аббревиатурами и более сложными буквенно-символьными конструкциями). С помощью семантических признаков объектные термины распределены по основным классам:

- энергетические объекты "эо": месторождение, трубопровод, нефтепровод, газопровод, магистральный нефтепровод, шахта, скважина, пхг;

- организации "орг": компания, завод, предприятие, акционерная компания, оао, оператор, Транснефть, Черноморнефтегаз;

- ресурсы "ресурс": электроэнергия, теплоэнергия, тепловая энергия, газ, нефть, уголь, природный газ, голубое топливо;

- персоны "перс": спикер госдумы, Сергей Нарышкин, советник президента, главный инженер, официальный представитель;

- локативные объекты "лок": регион, район, город, поселок, каспийский регион, кош-агачский район;

- темпоральные объекты "темп": июль, год.

Более детальная классификация терминов в иерархии объектов обусловлена такими их онтологическими свойствами, которые проявляются на уровне репрезентации в языковых конструкциях. Так, в классе "эо", выделяется подкласс "эо_трансп", представляющий протяженные транспортные объекты. Это позволяет учесть специфику сочетаемости соответствующих терминов с конструкциями наименований (нефтепровод "Альметьевск -Куйбышев 1") и количественными конструкциями (14 км трубопровода).

Названия ресурсов дифференцируются признаками "эр" (электроэнергия, теплоэнергия, тепловая энергия) и "тэр" (газ, нефть, уголь, природный газ, голубое топливо).

Видам и характеристикам деятельности, связанной с ресурсами и энергообъектами, в словаре соответствует класс "деят", представленный разнообразными языковыми средствами (преимущественно, глаголами, отглагольными существительными). Признаки дифференцируют лексику по видам деятельности:

- основная деятельность операторов энергетики по работе с ресурсами "деят_рес": добыча, транспортировка, переработка, производство, добывать, транзит, выпуск, выработка, прокачка, перерабатывать, производить, выпуск, сбыт, поставлять;

- деятельность организаций, направленная на объекты энергетики "деят_эо": строительство, создание, строить, достройка, модернизация, ремонт, установка, реконструировать, бурение, испытания, пуско-наладочная работа, ремонтная работа, работа по реконструкции, эксплуатация, восстанавливат;

- деятельность организаций, связанная с аварийными ситуациями "деят_ав": ликвидация, ликвидировать, устранить, прекратить;

- несанкционированная деятельность сторонних лиц "деят_крим": криминальная врезка, криминальный отвод, несанкционированная врезка.

В отдельный семантический класс выделена лексика, соответствующая нестандартным ситуациям на энергообъектах "ав_сит": авария, чп, порыв, прорвать, взрыв, пожар, возгорание, разлив <нефти>, выброс <газа>, утечка < нефти, газа>.

Кроме того, выделены лексические группы, соответствующие отношениям сравнения, причины, включения и др. Дополнительные семантические признаки выделяют обозначения характеристик деятельности, таких, как "фаза": начать, возобновить, приостановка, приступить.

Лексические признаки "тип", "знач", "имя", "связ" фиксируют особенности сочетаемости терминов в языковых конструкциях. Так, признаком "тип" выделены существительные-классификаторы, называющие объекты того или иного класса в общем виде (компания, магистральный нефтепровод, город). Признак "имя" характеризует имена собственные (топонимы, названия организаций). Признак "связ" группирует фазовые и связочные (семантически пустые) глаголы, с помощью которых осуществляется связь основных компонентов описываемых в тексте ситуаций: осуществлять <добычу>, заниматься <переработкой>, случиться <обледенение>, происходить <техногенная катастрофа>, проводить <наладку>, производить <модернизацию>.

Для извлечения дат, наименований организаций, энергетических и географических объектов используется словарь лексических шаблонов. Шаблоны позволяют задать порядок следования элементов конструкций, описывающих наименования объектов, и учесть их написание с заглавной буквы, курсивом, латиницей, через дефис /тире или в кавычках. Так, типичная конструкция для имени транспортного энергетического объекта - указание имен начальной и конечной точек, разделенных дефисом или тире: <нефтепровод> Восточная Сибирь - Тихий океан.

4. Извлечение информации. Учитывая разнообразие ситуаций, представленных в коллекции текстов, для первого эксперимента было принято ограничение на типы извлекаемых ситуаций: это, во-первых, информация о ходе работ на крупных энергетических объектах (строительство станции, разработка месторождения, добыча нефти), во-вторых, информация о разного рода авариях и происшествиях (разлив нефти, выход из строя электростанции).

Извлечение фактографической информации осуществляется на базе словарей, снабженных системой семантических признаков, отражающих онтологические сущности предметной области, а также моделях фактов, позволяющих в терминах семантических признаков и классов предметной области описывать способы выражения требуемой онтологической информации.

Каждая модель факта описывается схемой (правилом), которая включает набор аргументов структуры факта (аг§1, а^2, ...), их семантические/грамматические признаки, условия на семантико-синтаксическую сочетаемость характеристик аргументов, и набор объектов, который фиксирует структуру фактов в онтологическом представлении. Рассмотрим набор необходимых моделей для извлечения информации из приведенного примера анонса новости.

4.1. Инициализация объектов. Как показано выше (п. 3), система семантических признаков словаря формируется на основе онтологических сущностей, что позволяет инициализировать начальное формирование объектов непосредственно на основании словарных признаков.

Объект класса ЭО может быть представлен в тексте аппозитивной именной группой, в которой опорным словом является родовое слово или словокомплекс (тип), а имя примыкает к нему в постпозиции. Например :

магистральный нефтепровод <эо_трансп, Lex: тип> "Альметьевск - Куйбышев 1" <эо, Lex: имя> 2

извлекается с помощью двух моделей или схем:

Scheme ЭО тип : segment Клауза, genre segment Анонс (1)

argl: Term::тип&эо()

О Object :: ЭО(С^: argl.Sem^O)

В данной схеме термин должен обладать признаками тип и эо одновременно, с учетом иерархии наследования признаков в словаре. На основе термина создается объект -экземпляр понятия онтологии ЭО, класс объекта может уточниться в соответствии с семантическим признаком термина.

2 В примерах в скобках указываются признаки терминов, заданные в словаре.

Следующая схема заполняет атрибут Наименование у объекта класса ЭО.

Scheme ЭО имя : segment Клауза, genre segment Анонс (2)

argl: ЭО (Имя: 0)

arg2: Term::имя&эо()

Condition preposition(arg1,arg2), Contact(arg1,arg2)

■=> arg1: (Наименование: arg2.Name)

Аналогичным образом могут извлекаться объекты Организаций, если их названия присутствуют в словаре (например, Транснефть <орг, Lex: имя>). В противном случае, на основе лексического шаблона, выделяющего фрагмент текста в кавычках, формируется гипотеза, что это имя объекта, но уточнение его класса возможно только при наличии термина-классификатора, либо при последующей сборке ситуации.

4.2. Извлечение ситуаций. При поиске и выявлении характеристик объектов и их связей, как правило, требуется проверить сочетаемость семантических и/или грамматических признаков объектов. Для описания сочетаемости предикатных лексем был разработан словарь семантико-синтаксических конструкций (аналог моделей управления), который фиксирует семантические валентности предикатов, описывая их в терминах грамматических и семантических признаков актантов. Это позволяет проверять наличие управления в анализируемом фрагменте текста, т.е. согласованность семантических и синтаксических признаков предиката и актантов.

Рассмотрим поэтапное формирование с помощью моделей фактов фрагмента онтологии, описывающего деятельность организации на энергетических объектах.

4.2.1. Создание отношений в соответствии с моделью управления показателя ситуации.

Scheme Деят_Ресурс_1: genre_segment Анонс segment Клауза (3)

arg1: Term::трансп() arg2: Object::Рес () arg3: Object: :ЭО_трансп()

Condition Упр(ш£1, arg2), Упр(ш^1, arg3 ), preposition(arg1, arg2), preposition_priority (arg1, arg3) ■=> ob = Object::()

Relation:: Деят_Ресурс (first: ob, second: arg2) Relation::Деят_Средство (first: ob, second: arg3)

Предикат прокачка имеет валентности на существительные классов "эо_трансп" и "рес". Эта информация позволяет одновременно создать объект класса Деятельность и связать его отношениями с аргументами, удовлетворяющие семантическим и грамматическим условиям модели управления. Данная схема покроет фрагменты вида: прокачку нефти по нефтепроводу, прокачка по трубопроводу авиакеросина, прокачка азербайджанской нефти по трубам и т.п.

4.2.2. Извлечение субъекта деятельности

Scheme Субъект_Фаза_Деят: genre_segment Анонс segment Клауза (4)

argl: Term:: Связ () arg2: Object:: Деятельность() arg3: Орг()

Condition preposition_priority(arg1, arg2), Упр(arg1, arg2) postposition_priority(arg2, arg3), Упр(arg1, arg3) , Согл(ш^1, arg3, {род, число}) ■=> arg2: (Фаза: arg1.Sem.Фаза) Relation:: Деят_Субъект (first: arg2, second: arg3)

Особенностью рассматриваемого примера является наличие фазового глагола возобновить в личной форме, который реализует связь с субъектом деятельности "орг". Схема (4) позволяет создать эту связь с одновременным извлечением фазовой характеристики деятельности.

Приведенный набор моделей фактов позволяет извлечь основную информацию о целевой ситуации из анонса текста. Дополнительная информация для данной ситуации -дата и географическое местоположение - извлекается из лида с помощью соответствующих схем.

5. Разрешение референции объектов. Важной проблемой анализа текста является установление кореферентности объектов при их повторном упоминании. В общем случае онтологический подход позволяет разрешить референцию после основного анализа текста в процессе сравнения и идентификации объектов (относительно онтологии). Эквивалентными с точки зрения онтологии считаются объекты с непротиворечивыми классами и наборами атрибутов [10]. Однако для новостных анонсов можно использовать их жанровую особенность, которая заключается в том, что в сегменте Лид описываются те же самые объекты, что и в Хэдлайне, только более подробно. Поэтому можно ввести уточняющие схемы вида:

Scheme Ref1 genre_segment Анонс (5)

arg1: 0bject:^0(), segment Хэдлайн

arg2: 0bject:^0(), segment Лид

■=> Reference (first: arg1, second: arg2)

Данная модель позволяет заранее задать референциальные связи, что упрощает процедуру поиска эквивалентных с точки зрения онтологии объектов.

Заключение. В статье описан подход к организации процесса извлечения информации под управлением онтологии. Рассмотрены отдельные компоненты системы и приведен пример извлечения конкретной ситуации, описывающей деятельность в области энергетики.

В дальнейшем предполагается создать тестовую коллекцию, в которой будут размечены все вхождения целевой ситуации с использованием системы семантической разметки [8]. Система разметки позволяет выделить и связать текстовые фрагменты, представляющие показатели ситуаций выбранного типа и фрагменты, соответствующие участникам ситуации. Размеченная таким образом коллекция позволит, с одной стороны, провести более детальный анализ представляющих эти ситуации контекстов, доработать

лингвистическую базу знаний (словари и модели), а с другой стороны, - оценить

эффективность предложенного подхода.

СПИСОК ЛИТЕРАТУРЫ

1. Андреев А. М., Березкин Д. В., Симаков К. В. Модель извлечения знаний из естественноязыковых текстов // Информационные технологии. 2007. N 12. С. 57-63

2. Ахмадеева И.Р., Загорулько Ю.А. и др. Подход к формированию тематических коллекций текстов на основе web-публикаций // Вестник НГУ. Серия: Информационные технологии.

2013. Т.11. Вып. 4. C. 59-70.

3. Власова Н.А. Подход к автоматическому извлечению информации о назначениях и отставках лиц (на материале новостных сообщений) // Электронные библиотеки: перспективные методы и технологии, электронные коллекции. XIV Всероссийская научная конференция RCDL-2012. Труды конференции. Переславль-Залесский: Университет города Переславля, 2012. С. 374-378.

4. Гершензон Л.М., Ножов И.М., Панкратов Д.В. Система извлечения и поиска структурированной информации из больших текстовых массивов СМИ. Архитектурные и лингвистические особенности // Труды международной конференции Диалог'2005 «Компьютерная лингвистика и интеллектуальные технологии». М.: Наука, 2005. С. 97101.

5. Ермаков А. Е. Автоматическое извлечение фактов из текстов досье. Опыт установления анафорических связей // Компьютерная лингвистика и интеллектуальные технологии: тр. междунар. конф. (Диалог'2007). Бекасово, 2007. С. 172-177.

6. Ермаков А.Е., Плешко В.В. Семантическая интерпретация в системах компьютерного анализа текста // Информационные технологии. 2009. №6. С. 2-7.

7. Жуков А. С. О соотношении понятий «лид» и «хэдлайн» в новостных материалах традиционных и интернет-СМИ // Молодой ученый. 2013. №4. С. 669-671.

8. Загорулько М.Ю., Кононенко И.С., Сидорова Е.А. Система семантической разметки корпуса текстов в ограниченной предметной области // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог». Вып. 11 (18). М.: РГГУ, 2012. Т.1. С. 674-683.

9. Макагонова Н.Н. Энциклопедия знаний, основанная на онтологиях //Тр. XIX Байкальской Всероссийской конференции "Информационные и математические технологии в науке и управлении". - Иркутск: Институт систем энергетики им. Л.А. Мелентьева СО РАН.

2014. Т.3. С. 153-158.

10. Серый А.С., Сидорова Е.А. Поиск референциальных отношений между информационными объектами в процессе автоматического анализа документов // Труды XIV Всероссийской научной конференции RCDL-2012 Электронные библиотеки: перспективные методы и технологии, электронные коллекции. Переславль-Залесский, 2012. С. 206-212.

11. Сидорова Е.А. Фактографический анализ текста в контексте интеллектуальных информационных систем // Тр. XVIII Байкальской Всероссийской конференции "Информационные и математические технологии в науке и управлении". - Иркутск: Институт систем энергетики им Л.А. Мелентьева СО РАН. 2013. Т.3. С. 79-85.

12. Сидорова Е.А., Кононенко И.С. Представление жанровой структуры документов и ее использование в задачах обработки текста // Труды Седьмой Международной конференции памяти академика А.П. Ершова "Перспективы систем информатики". Рабочий семинар «Наукоемкое программное обеспечение». - Novosibirsk, Сибирское Научное Издательство, 2009 C. 248-254.

13. Grishman R. Information Extraction // Mitkov R. (ed.) The Oxford Handbook of Computational Linguistics. Oxford University Press, 2003, pp.545-559.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

14. Grishman R., Sundheim B. Message Understanding Conference-6: A Brief History // Proceedings of the 16th International Conference on Computational Linguistics (COLING'96). Copenhagen, 1996, pp.466-471.

15. Efimenko I.V., Khoroshevsky V.F., Klintsov V.P. OntosMiner Family: Multilingual IE Systems // The Proceedings of International Conference SPECOM-2004. St.-Petersburg, Russia, 2004, pp.716-720.

16. Mikheev A., Grover C. LTG: description of the NE recognition system as used for MUC-7 // Proceedings of the 7th Message Understanding Conference (MUC-7). 1998. Режим доступа: http://www.itl.nist.gov/iaui/894.02/related projects/muc (дата обращения 01.04.2016)

UDK 004.912, 004.82

APPROACH TO EXTRACTING INFORMATION ON ENERGETICS FROM NEWS AGENCY REPORTS Irina S. Kononenko

Researcher, A.P. Ershov Institute of Informatics Systems SB RAS, 6, Acad. Lavrentjev pr., Novosibirsk 630090, e-mail: [email protected]

Elena A. Sidorova Senior researcher, A.P. Ershov Institute of Informatics Systems SB RAS, 6, Acad. Lavrentjev pr., Novosibirsk 630090, e-mail: [email protected]

Alisa O. Veremianina

Student, Novosibirsk National Research University 2, Pirogova Str., Novosibirsk 630090, e-mail: [email protected]

Abstract. The paper describes an approach to automatic extraction of information about events in the fuel and energy sector from the web news reports. The knowledge base of the event extraction system consists of energetics ontology and linguistic resources. Domain vocabulary includes terms with semantic features that indicate to ontological concepts. Government patterns represent valences of predicate words and their possible fillers described in terms of semantic and syntactic features. Segmentation rules explicate formal and genre structure of the text. The process of analyses is based on event extraction schemes which relate terms and patterns to ontology elements. Keywords: information extraction, ontology, domain vocabulary, text genre, government pattern, event extraction scheme.

References

1. Andreev A.M., Berezkin D.V., Simakov K.V. Model izvlecheniya znanij iz estestvenno-yazykovyh tekstov [Model of knowledge extraction from natural language texts]. Informacionnye tekhnologii = Information technologies, 2007. № 12. Pp. 57-63 (in Russian).

2. Ahmadeeva I.R., Zagorulko Yu.A. et al. Podhod k formirovaniyu tematicheskih kollekcij tekstov na osnove web-publikacij [Approach to forming thematic text collections on the basis of web-resources].Vestnik NGU Seriya Informacionnye tekhnologii = Novosibirsk State University Journal of Information Technologies, 2013. Vol. 11. № 4. Pp. 59-70 (in Russian).

3. Vlasova N.A. Podhod k avtomaticheskomu izvlecheniyu informacii o naznacheniyah i otstavkah lic (na materiale novostnyh soobshchenij) [An approach to the automatic fact extraction from news texts on appointments and dismissals in texts]. Elektronnye biblioteki: perspektivnye metody i tekhnologii, elektronnye kollekcii. XIV Vserossijskaya nauchnaya konferenciya RCDL-2012. Trudy konferencii = Digital Libraries: Advanced Methods and Technologies, Digital Collections. XIV All-Russian Scientific Conference RCDL-2012. Pereslavl-Zalesskij, 2012. Pp. 374-378 (in Russian).

4. Gershenzon L.M., Nozhov I.M., Pankratov D.V. Sistema izvlecheniya i poiska strukturirovannoj informacii iz bolshih tekstovyh massivov SMI. Arhitekturnye i lingvisticheskie osobennosti [System for extraction and search of structured data from large arrays of text media. Architectural and linguistic features]. Trudy mezhdunarodnoj konferencii Dialog. Kompyuternaya lingvistika i intellektualnye tekhnologii = Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference "Dialog", Moscow, Nauka Publ., 2005. Pp. 97-101 (in Russian).

5. Ermakov A.E. Avtomaticheskoe izvlechenie faktov iz tekstov dose. Opyt ustanovleniya anaforicheskih svyazej. [Automatic extraction of facts from the text dossier. Experience of establishing anaphoric relations] Kompyuternaya lingvistika i intellektualnye tekhnologii. Mezhdunarodnoj konferencii Dialog = Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference "Dialog", 2007. Pp. 172-177 (in Russian).

6. Ermakov A.E. Pleshko V.V. Semanticheskaya interpretaciya v sistemah kompyuternogo analiza teksta [The semantic interpretation in computer text analysis systems] // Informacionnye tekhnologii = Information technologies, 2009. № 6. Pp. 2-7 (in Russian).

7. Zhukov A.S. O sootnoshenii ponyatij lid i hedlajn v novostnyh materialah tradicionnyh i internet-SMI [On the relation between the concepts of "led" and "headlining" in news materials of traditional and internet media]. Molodoj uchenyj = Young scientist, 2013. № 4. Pp. 669-671 (in Russian).

8. Zagorulko M.Yu., Kononenko I.S., Sidorova E.A. Sistema semanticheskoj razmetki korpusa tekstov v ogranichennoj predmetnoj oblasti [System for semantic annotation of domain-specific text corpora] // Kompyuternaya lingvistika i intellektualnye tekhnologii:Trudy Mezhdunarodnoj konferencii Dialog [Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference "Dialog"], Moscow, RSUH Publ., 2012, Vol. 1, pp. 674-683 (in Russian).

9. Makagonova N.N. Enciklopediya znanij osnovannaya na ontologiyah [Encyclopedia of knowledge, based on ontologies] // Tr XIX Bajkalskoj Vserossijskoj konferencii Informacionnye i matematicheskie tekhnologii v nauke i upravlenii = Proceedings of XIX

Кононенко H.C., Cudopoea E.A., BepeMbHnuna A.O.

Baikal conference on information and mathematical technologies in science and management. Irkutsk, Melentiev Energy Systems Institute Publ., 2014. Vol. 3. Pp. 153-158 (in Russian).

10. Seryj A.S., Sidorova E.A. Poisk referencial'nyh otnoshenij mezhdu informacionnymi ob"ektami v processe avtomaticheskogo analiza dokumentov [Searching of referential relationships between the information objects during the automatic document processing]. Trudy XIV Vserossijskoj nauchnoj konferencii RCDL-2012 Elektronnye biblioteki: perspektivnye metody i tekhnologii, elektronnye kollekcii = Digital Libraries: Advanced Methods and Technologies, Digital Collections. XIV All-Russian Scientific Conference RCDL-2012, Pereslavl-Zalessky, 2012. Pp. 206-212 (in Russian).

11. Sidorova E.A. Faktograficheskij analiz teksta v kontekste intellektual'nyh informacionnyh sistem [Factographic analysis of text in intellectual information systems]. Trudy XVIII Bajkal'skoj Vserossijskoj konferencii "Informacionnye i matematicheskie tekhnologii v nauke i upravlenii" = Proceedings of XVIII Baikal conference on information and mathematical technologies in science and management] Irkutsk, Melentiev Energy Systems Institute Publ., 2013. Vol. 3. Pp. 79-85 (in Russian).

12. Sidorova E.A., Kononenko I.S. Predstavlenie zhanrovoj struktury dokumentov i ee ispol'zovanie v zadachah obrabotki teksta [Document genre structure representation and its application to text processing]. Trudy Sed'moj Mezhdunarodnoj konferencii pamyati akademika A.P. Ershova "Perspektivy sistem informatiki". Rabochij seminar «Naukoemkoe programmnoe obespechenie» = Proceedings of the 7th Andrej Ershov Informatics Conference. Workshop on science intensive applied software, Novosibirsk: Siberian Scientific Publ., 2009. Pp. 248-254 (in Russian).

13. Grishman R. Information Extraction. Mitkov R. (ed.) The Oxford Handbook of Computational Linguistics, Oxford University Press, 2003, pp.545-559.

14. Grishman R., Sundheim B. Message Understanding Conference-6: A Brief History. Proceedings of the 16th International Conference on Computational Linguistics (COLING'96), Copenhagen, 1996, pp.466-471.

15. Efimenko I.V., Khoroshevsky V.F., Klintsov V.P. OntosMiner Family: Multilingual IE Systems. Proceedings of International Conference SPECOM-2004, St.-Petersburg, 2004, pp.716-720.

16. Mikheev A., Grover C. LTG: description of the NE recognition system as used for MUC-7. Proceedings of the 7th Message Understanding Conference (MUC-7), 1998. Available at: http://www.itl.nist.gov/iaui/894.02/related projects/muc, accessed 01.04.2016.

i Надоели баннеры? Вы всегда можете отключить рекламу.