Научная статья на тему 'Метод итерационного построения шаблонов для поиска в текстах по катализу информации о химических процессах и условиях их протекания'

Метод итерационного построения шаблонов для поиска в текстах по катализу информации о химических процессах и условиях их протекания Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
86
17
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АВТОМАТИЧЕСКИЙ АНАЛИЗ НАУЧНЫХ ТЕКСТОВ / ШАБЛОНЫ ФАКТОВ / АВТОМАТИЗАЦИЯ ПОСТРОЕНИЯ ШАБЛОНОВ / N-ГРАММНЫЙ АНАЛИЗ

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Гусев Владимир Дмитриевич, Саломатина Наталья Васильевна

На материале конференций по катализу проведена апробация итерационного подхода, применяемого в общем случае при построении поисковых шаблонов для извлечения фактов. В нашем случае под фактом понимается информация о реакциях и условиях их протекания. Путем итераций, а именно, попеременного поиска в тексте структур, содержащих либо известные термины и неизвестные связи между ними, либо известные связи и неизвестные термины, производится обогащение изначально заданного небольшого множества шаблонов, как правило, построенного экспертами с применением в той или иной степени элементов автоматизации. Показано, что использование N -граммного анализа текстов для начального наполнения множества поисковых шаблонов, сокращает число итераций и повышает полноту формируемых словарей терминов и связей.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Гусев Владимир Дмитриевич, Саломатина Наталья Васильевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The testing of the iterative approach that, in a general case, is used to automate construction of the retrieval patterns for fact extraction was realized on the catalysis conference proceedings. In our case, a fact is understood as information about the reaction and conditions of its behavior. The initial set of some patterns is enriched by iteration, namely, by alternate search for structures with either the known terms and unknown relations between them or known relations and unknown terms in the training texts. The initial patterns, as a rule, are constructed by experts with use of automation elements in greater or lesser extent. It was shown that the using of N-gramm text analysis for the initial generation of search pattern collections reduces the number of iterations and increases the dictionary completeness of terms and relations that are extracted from the texts.

Текст научной работы на тему «Метод итерационного построения шаблонов для поиска в текстах по катализу информации о химических процессах и условиях их протекания»

Метод итерационного построения шаблонов для поиска в текстах по катализу информации УДК 004.912

МЕТОД ИТЕРАЦИОННОГО ПОСТРОЕНИЯ ШАБЛОНОВ ДЛЯ ПОИСКА В ТЕКСТАХ ПО КАТАЛИЗУ ИНФОРМАЦИИ О ХИМИЧЕСКИХ ПРОЦЕССАХ И УСЛОВИЯХ ИХ ПРОТЕКАНИЯ

Гусев Владимир Дмитриевич

К.т.н., с.н.с., Институт математики им. С.Л. Соболева СО РАН, 630090 г. Новосибирск, пр. ак. Коптюга, 4, e-mail: gusev@math.nsc.ru Саломатина Наталья Васильевна К.ф.-м.н., с.н.с., Институт математики им. С.Л. Соболева СО РАН, 630090 г. Новосибирск, пр. ак. Коптюга, 4, e-mail: nataly@math.nsc.ru

Аннотация. На материале конференций по катализу проведена апробация итерационного подхода, применяемого в общем случае при построении поисковых шаблонов для извлечения фактов. В нашем случае под фактом понимается информация о реакциях и условиях их протекания. Путем итераций, а именно, попеременного поиска в тексте структур, содержащих либо известные термины и неизвестные связи между ними, либо известные связи и неизвестные термины, производится обогащение изначально заданного небольшого множества шаблонов, как правило, построенного экспертами с применением в той или иной степени элементов автоматизации. Показано, что использование #-граммного анализа текстов для начального наполнения множества поисковых шаблонов, сокращает число итераций и повышает полноту формируемых словарей терминов и связей. Ключевые слова: автоматический анализ научных текстов, шаблоны фактов, автоматизация построения шаблонов, #-граммный анализ.

Введение. Рост объемов информации в различных предметных областях стимулирует развитие методов автоматического поиска и извлечения фактов из текстов. Будем понимать под фактами объекты, связанные определенными отношениями. В реальной практике представляют интерес, например, факты покупки или получения кредита [6], факты назначения, увольнения, пребывания на должности персон [2] и др.

Достаточно высокое качество поиска и извлечения фактов из текстов достигается при использовании шаблонов, дающих обобщенное описание поискового объекта. Шаблоны формируются с привлечением экспертов. Примерами таких описаний являются лексико-синтаксические/семантические шаблоны [1], сценарии (фреймы) [6] или аннотации [2]. Нас будут интересовать лексико-синтаксические шаблоны. Их основой, или «константой» шаблона, является маркер связи между объектами, выраженный отдельным словом или словосочетанием. Объекты в шаблоне обычно обозначаются переменными, на которые накладываются определенные ограничения [1]. Маркеры позволяют выявить фрагмент текста (как правило, это предложение), в котором содержится нужная информация, т.е. реализовать поиск. Ограничения в шаблонах на грамматические формы слова (словосочетания) и / или на принадлежность его к определенному семантическому классу позволяют отклонить ложные гипотезы о наличии факта и таким образом обеспечивают точность поиска.

Чаще всего жанр анализируемых текстов в публикациях - это сообщения СМИ. В [5] рассмотрен и такой жанр, как досье. Примером анализа научных текстов может служить подход, реализованный в [9]. В текстах научных жанров кроме определений, терминов, аспектов содержания важно уметь обнаруживать и извлекать информацию о различных процессах. Таковыми, например, в текстах по катализу являются процессы приготовления и использования катализаторов. Важны и особенности протекания процессов (тип реакции, реагент, катализатор, продукт).

Нередко шаблоны создаются экспертами вручную как, например, в [9]. Возможна и частичная автоматизация этого процесса. Так, в [5] реализован синтаксический разбор фразы для поиска связей между объектами. Но эффективный поиск определенных фактов в текстах может быть осуществлен и без использования достаточно сложной и неоднозначной процедуры полного синтаксического разбора предложения. Альтернативой могут служить лексико-синтаксические шаблоны [1]. Недостаток этого подхода состоит в том, что для каждой разновидности факта требуется построить свой шаблон.

Метод итеративного построения шаблонов экономит усилия эксперта [6]. Он привлекателен тем, что на начальном этапе требует задания лишь некоторого небольшого количества шаблонов. В ходе итераций множество шаблонов наращивается за счет попеременного проведения поиска: а) по шаблонам с заданными объектами и с любой связью между ними; б) по шаблонам с заданной связью и любыми объектами. На этапе а) выявлялись новые связи, на этапе б) - новые объекты.

Цель данной статьи - построить шаблоны для обнаружения описаний химических процессов в англоязычных текстах по катализу и извлечения сведений об условиях их протекания.

Отличительной особенностью нашего подхода является автоматизация этапа построения начальных шаблонов путем применения ^граммного анализа для поиска константных частей шаблона. В качестве маркеров химических процессов рассматривались только глаголы, т.к. именно они наилучшим образом определяют количество и тип участников ситуации, характеризующих факт.

1. Метод итерационного построения поисковых шаблонов. Основу шаблона, описывающего химические процессы, составляют одно- и многословные термины со связями В общем виде для наших целей поисковый шаблон может быть представлен

следующим образом:

Р] = ^ ..., pri_lti, где Rj - связь, выраженная глаголом в пассивной форме с допустимыми модификациями (временными вариантами формы глагола, вставками наречий), рг -возможные препозиции или предлоги. Термины ^ заполняют валентности глагола, которые определяются возможной его семантической сочетаемостью с ними (1 = 1,..., М, М -максимальное число валентностей).

Факт считается выявленным, если в анализируемой фразе текста найдены: 1) связь из 2) термины из расположенные в порядке, установленном в шаблоне: термин -связь - термин; 3) выполнены ограничения, введенные в шаблоне. В ограничения входит запрет на присутствие знаков пунктуации в шаблоне, на чрезмерную удаленность терминов друг от друга.

Методика формирования множества шаблонов включает последовательность шагов, реализуемых на множестве текстов:

1) получение #-граммного спектра из множества текстов и фильтрация спектра с целью отбора терминов и связей вида^};

2) исполнение итераций (они проводятся для фрагмента шаблона Р^ = ^ Rj ^ с целью обогащения множеств терминов и связей {Я)}:

1-й этап: фиксируем в качестве константы отобранные из #-граммного спектра связи проводим поиск связей в тексте, пополняем множество терминов, используя

обобщенный шаблон терминов (см. п. 1.1).

2-й этап: фиксируем (считаем константой) множество^}, проводим поиск в множестве текстов, пополняем {Я|} связями, позиционно расположенными между парой терминов из

Первый и второй этапы чередуются до тех пор, пока в ходе итераций число (1 и ]) элементов множества терминов и связей увеличивается.

3) расширение шаблона Р] = ^ Rj ^ (заполнение валентностей глагола-связи) до первоначально заявленного вида Р = ^ Rj ..., рг^.

1.1. Формирование начального множества шаблонов. Для автоматизации построения начального множества шаблонов используется #-граммное представление коллекции текстов [3]. Под #-граммой (хдг) понимается цепочка из N подряд следующих слов текста. Совокупность ^грамм, описывающих текст Т, формируется путем анализа содержимого окна ширины N, скользящего вдоль текста со сдвигом на одно слово. N граммная характеристика текста включает совокупность всевозможных содержащихся в нем ^грамм с указанием их частот встречаемости .Р(х^) и, при необходимости, позиций их вхождения в текст. Параметр N обычно пробегает значения от 1 до N„^(7), где N„^(7) -длина максимальной повторяющейся цепочки слов в тексте. В случае группы текстов Т = (71, 72,..., Тт) вычисляются совместные ^граммные характеристики, содержащие всевозможные ^граммы, общие хотя бы для пары текстов. Параметр N в этом случае меняется от 1 до ^^(Т), где ^^Т) - длина максимального межтекстового повтора. Наиболее перспективными в плане выявления терминов и связей являются устойчивые ^граммы. Под устойчивостью понимается свойство ^граммы сохранять частоту при расширении цепочки вправо и влево на одно слово. Алгоритм выявления устойчивых цепочек описан в [4]. Поскольку рассматриваются только смежные ^граммы, извлечь подобным методом полный шаблон невозможно в силу вариативности текстов.

Для отбора терминов ^ из #-граммного спектра подборки текстов используется частеречный шаблон обобщенного вида, в котором нет ограничений на длину словосочетания, но есть ограничения на части речи слов в сочетании, расположенные в начальной, конечной и внутренних позициях сочетания:

1) в начальной позиции стоит неслужебное слово;

2) во внутренней позиции слово относится к основной части речи (кроме глаголов) или может быть предлогом (факультативно могут быть включены и союзы);

3) в конечной позиции всегда стоит существительное.

Для отбора связей из на данном этапе исследований применяется ряд

частеречных шаблонов, в соответствии с которыми допустимая цепочка х^ должна обязательно содержать:

1) основной глагол в пассивной форме настоящего, будущего или прошедшего времени;

2) следующий за глаголом предлог или артикль.

Допустимы модификации шаблона: вставка наречия и предшествующего основному глаголу модального глагола (см. примеры в разделе 2).

Еще одним фильтром является значение частоты встречаемости Ж-граммы, удовлетворяющей частеречному шаблону. Она должна быть выше выбранного (как правило, в эксперименте) порогового значения.

1.2. Итерационное наращивание множества шаблонов. Каждая итерация связана с реализацией поисковой процедуры на множестве текстов, снабженном частеречными тегами. Поиск факта (связанных терминов) осуществляется на фрагменте текста, равном одной фразе. Раскрытие анафорических ссылок в тексте на данном этапе не проводится. На разных стадиях итерационной процедуры в поисковую структуру (ассоциативный массив, автомат, дерево) загружаются либо маркеры связей, либо терминологический словарь. Каждое слово каждой фразы текста ищется в поисковой структуре. Если зафиксировано совпадение, то проводится анализ окрестности найденного слова (словосочетания) с целью проверки установленных в шаблонах ограничений согласно специальной процедуре, выбираемой в зависимости от того, на каком этапе итераций обнаружено совпадение.

На этапе выявления новых терминов проводится поиск термина слева и справа от маркера связи. Термин должен удовлетворять частеречному шаблону. Левый контекст анализируется до обнаружения элемента текста из следующего множества: {начало текста, знак препинания, артикль, союз, предлог}. Множество элементов для установления правой границы правого термина включает те же элементы, исключая «начало текста». Термины, выявленные по шаблону, могут выражать более узкие понятия, чем основные (словарные) термины. Оценка существенности уточнения термина и возможности помещения его в словарь не проводится. Один из путей модификации термина до словарного - это его усечение до допустимого именного сочетания с главным словом. Допустимые именные сочетания задаются словарем частеречных шаблонов.

На этапе выявления новых связей проверка содержимого фрагмента фразы между терминами сводится к реализации следующих действий:

1) проверка присутствия знаков препинания: если фрагмент содержит запятую, проводится проверка на наличие «that» или «which» после запятой, фрагмент усекается слева;

2) проверка числа слов во фрагменте с предполагаемой связью согласно введенному ограничению - не больше 10;

3) проверка соответствия частеречного состава шаблона частеречному составу выявленного фрагмента.

Если все допустимые ограничения выполнены, найденный фрагмент добавляется в множество связей. Какой из этапов, выявление связей или выявление терминов, выбрать в качестве первого в итерационном процессе особого значения не имеет.

1.3. Расширение структуры шаблонов. При реализации итераций на этапе выявления связей для каждого маркера связи из правого контекста выбираются все препозиции, стоящие перед фрагментами текста, удовлетворяющими частеречному шаблону термина из словаря допустимых именных сочетаний. В этих фрагментах и содержится информация об условиях протекания процесса (The catalyst was activated at 400 C for 12 h under 5% H2/He flow). В этом случае необходима проверка того, предваряют ли препозиции разные термины или являются составной частью одного многословного термина как, например, в «reactor with a fluidized catalyst bed».

Задача определения «роли» термина осложняется также "омонимией" препозиций, например, предлоги "in", "under" предваряют термины, означающие вещество или условия протекания реакции; "via" - способ, метод, название реакции; "by" - вещество или способ активации. Правила разрешения омонимии опираются на анализ ближайшего контекста, например, в случае, если в ближайшем контексте "by" встречаются слова reaction, method, procedure, technique, то речь идет о способе активации процесса. Аналогично, для препозиции "at": если речь идет о температуре, то в ближайшем контексте встречается слово temperature или конкретное ее значение с маркером °C. Указанию на присутствие таких параметров как давление и время сопутствуют, соответственно, следующие маркеры: pressure, P; hour, число и символ "h" (24 h).

2. Апробация метода. Экспериментальная проверка метода проводилась на материале конференций по катализу (EuropaCat'2013, 1133 доклада, ~ 600 тыс. словоупотреблений) [7]. Предобработка текста осуществлялась с помощью программного модуля OSCAR4 (The Open-Source Chemistry Analysis Routines) [8] и включала частеречное теггирование слов в соответствии со стандартизованным набором тегов.

Согласно принятым в данном исследовании ограничениям для формирования набора связей из #-граммного спектра конференций извлекались высокочастотные ^-граммы, удовлетворяющие следующему частеречному шаблону общего вида:

[MD] VB(D, P, G, Z) [VBN] [RB] VBN [IN] [DT], где квадратные скобки использованы для указания факультативных элементов и приняты следующие обозначения: VB - глагол в базовой форме, VBN - причастие прошедшего времени, IN - препозиция, DT - артикль, MD - модальный глагол, RB - наречие. Подстрока [VB(D, P, G, Z)] вводит различные временные реализации вспомогательного глагола to be, to have, например, VBD - прошедшее время (were, had), VBP - настоящее время, не 3-е лицо (are), VBZ - настоящее время, ед.ч., 3-е лицо (is, has).

Маркером MRj связи Rj будем считать подстроку VBN [IN] [DT], содержащую форму смыслового глагола.

Маркеры связей делятся на три типа: а) стандартные для тезаурусов всех предметных областей (тип связи S: contain, consist, include, involve), б) маркеры специфических связей (причинно-следственных, корреляционных и пр.), которые имеются лишь в отдельных тезаурусах (тип связи R: act, affect, cause, correlate, link, relate), в) маркеры узко специфических связей в предметной области «катализ» (тип связи С: activated, catalyzed, initiated, synthesized). Связи, фиксируемые маркерами типа R и S, можно трактовать как ассоциации в списке стандартных тезаурусных отношений.

Наиболее часто встречающиеся препозиции из примерно 150 возможных - это: in, by, with, within, into, at, under, for, to, on, from, over, onto, via, upon, during, between, after, due to, through, till, until.

Конкретизация частеречного состава общего шаблона именных терминоподобных словосочетаний фиксирует более 120 их разновидностей длиной от двух до 14 слов. В первый десяток самых частых реализаций входят следующие: JJ NN; NN NN; JJ NN NN; JJ JJ NN; NN IN NN; NNP NN; NN NN IN NN; NNP NNP; NN IN JJ NN; JJ NN IN NN; NN IN DT NN; JJ NN IN NN CC NN NN; JJ NN NN NN, где JJ - прилагательное, NN - существительное, NNP - имя собственное, IN - предлог, DT -артикль, JJR - сравнительная степень прилагательного, CC - союз.

В качестве первого этапа в итерационной процедуре был выбран поиск терминов на базе набора связей, выделенного из частотного спектра. Объем словаря извлеченных по обобщенному шаблону терминов оказался довольно большим (~ 18 тыс. терминов) и содержал даже после фильтрации много общенаучных терминов. Словарь терминов на первом этапе считался пустым. В начальный набор связей было включено в первом эксперименте 14 часто встречающихся глаголов-маркеров, а во втором - 235. Для извлечения всех терминов и связей потребовалось три (первый эксперимент) и четыре (второй эксперимент) итерации (для сравнения: извлечение фактов покупки, получения кредита из новостных текстов требовало 6 - 7 итераций [6]). Основная часть терминов и связей ~ 70% в первом эксперименте (и почти 90% - во втором) была извлечена на первом и втором этапе первой итерации алгоритма. На второй итерации добавилось еще около 17% всех выявленных терминов и связей в первом эксперименте и 5% - во втором.

Расширение шаблонов выявило возможность реализации до 6-ти валентностей у глагола-маркера: t1 R by t2 over t3 at t4 in t5 at t6 (MR = synthesized; тип маркера С: The nitrogen doped carbon nanofibers (n-cnfs) were synthesized by decomposition of ethylene/ammonia mixtures over ni-cu catalyst at 550 С in a flow reactor with a fluidized catalyst bed at atmospheric pressure (многословные термины с предложной конструкцией: t2 = decomposition of ethylene/ammonia mixtures и t5 = a flow reactor with a fluidized catalyst bed). Терминообразующие существительные и словокомплексы (550°С) выделены курсивом.

Наиболее часто реализуемые в текстах виды шаблонов: tiR t2 - 2571; tiR in t2 - 319; tiR at t2 - 217; tiR by t2 - 189;

tiR on t2 - 153; t1R of t2 - 117; t1R at t2 for t3 - 59; t1R in t2 at t3 for t4 - 33;

Предварительная оценка точности выявления условий протекания процессов, подсчитанная вручную на подмножестве из 5 текстов, выбранных случайным образом, оказалась довольно высокой - порядка 90 %, что для коротких научных текстов вполне вероятно.

Заключение. Применение итерационного метода для построения шаблонов, посредством которых можно выявлять в текстах по катализу факт наличия информации о химических процессах и условиях их протекания, вполне оправдано. Использование N-граммного анализа текстов для формирования начального множества шаблонов ускоряет «сходимость» итерационного процесса: требуется меньшее число итераций для выявления возможных терминов и связей.

Проблема извлечения терминов из выявленных именных сочетаний в общем случае остается открытой. Но это общая проблема, характерная и для других способов выявления терминов и связей. Планируется провести поисковый эксперимент на материале конференций 2015 г. с целью более детальной оценки качества построенных поисковых шаблонов.

СПИСОК ЛИТЕРАТУРЫ 1. Большакова Е., Баева Н., Бордаченкова Е. и др. Лексико-синтаксические шаблоны в задачах автоматической обработки текстов // «Компьютерная лингвистика и интеллектуальные технологии» (Диалог'2007): труды, Т. 2. М.: Изд-во РГГУ, 2007. С. 70-75.

2. Власова Н.А. Подход к автоматическому извлечению информации о назначениях и отставках лиц (на материале новостных сообщений) // «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (RCDL-2012): труды. Переславль-Залесский, 2012. С. 313-317.

3. Гусев В.Д., Саломатина Н.В., Кузьмин А.О. и др. Опыт использования L-граммного анализа для пополнения тезауруса по катализу // «Прикладна лшгвистика та лшгвистичш технологи» (MegaLing-2009): труды. Изд-во: «Довира», Киев, 2009. С.388-396.

4. Гусев В.Д, Саломатина Н.В. Алгоритм выявления устойчивых словосочетаний с учетом их вариативности (морфологической и комбинаторной) // «Компьютерная лингвистика и интеллектуальные технологии» (Диалог-2004): труды. М.: Изд-во Наука, 2004. С. 530-535.

5. Ермаков А.Е. Автоматическое извлечение фактов из текстов досье: опыт установления анафорических связей // «Компьютерная лингвистика и интеллектуальные технологии» (Диалог'2007): труды. Т. 2. М.: Изд-во РГГУ, 2007. C.131-135.

6. Котельников Д.С. , Лукашевич Н.В. Итерационное извлечение шаблонов описания событий по новостным кластерам // «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (RCDL-2012): труды. Переславль-Залесский, 2012. С. 292-298.

7. European Congress on Catalysis (EuropaCat-XI, 1-6 September, 2013), Book of Abstracts. Lyon: EuropacatLyon, France, 2013.

8. Jessop David M., Adams Sam E., Willighagen Egon L., Hawizy L., Murray-Rust P., Cheminform J. «OSCAR4: a flexible architecture for chemical text-mining», 2011. www.ncbi.nlm.nih.gov/pmc/articles/PMC3205045 (дата обращения: 05.06.2016).

9. Ivanisenko V.A., Saik O.V. and others. DSystem: an Associative Network Discovery System for automated literature mining in the field of biology // http://bmcsystbiol.biomedcentral.com/articles/10.1186/1752-0509-9-S2-S2 (дата обращения: 05.06.2016).

UDK 004.912

AN ITERATIVE FACT-PATTERNS CONSTRUCTION FOR SEARCH IN THE TEXTS ON CATALYSIS THE INFORMATION OF CHEMICAL PROCESSES

AND THEIR BEHAVIOR CONDITIONS Vladimir D. Gusev

senior researcher, Sobolev Institute of Mathematics, SB RAS, 630090, Novosibirsk, pr. ac. Koptyuga, 4, e-mail: gusev@math.nsc.ru

Natalia V. Salomatina senior researcher, Sobolev Institute of Mathematics, SB RAS, 630090, Novosibirsk, pr. ac. Koptyuga, 4, e-mail: nataly@math.nsc.ru

Abstract. The testing of the iterative approach that, in a general case, is used to automate construction of the retrieval patterns for fact extraction was realized on the catalysis conference proceedings. In our case, a fact is understood as information about the reaction and conditions of its behavior. The initial set of some patterns is enriched by iteration, namely, by alternate search for structures with either the known terms and unknown relations between them or known relations and unknown terms in the training texts. The initial patterns, as a rule, are constructed by experts with use of automation elements in greater or lesser extent. It was shown that the using of N-gramm text analysis for the initial generation of search pattern collections reduces the number of iterations and increases the dictionary completeness of terms and relations that are extracted from the texts. Keywords: automatic analysis of scientific texts, fact-patterns, automation of fact-patterns construction, N-gramm analysis.

References

1. Bol'shakova E., Baeva N., Bordachenkova E. i dr. Leksiko-sintaksicheskie shablony v zadachah avtomaticheskoj obrabotki tekstov [Lexico-syntactic patterns for tasks of automatic processing text] // «Komp'yuternaya lingvistika i intellektual'nye tekhnologii» (Dialog'2007): trudy. T. 2. M.: Izd-vo RGGU. 2007. Pp. 70-75 (in Russian).

2. Vlasova N.A. Podhod k avtomaticheskomu izvlecheniyu informacii o naznacheniyah i otstavkah lic (na materiale novostnyh soobshchenij) [The approach to the automatic extraction of information about the appointments and resignations of persons (on the basis of news messages )] // «EHlektronnye biblioteki: perspektivnye metody i tekhnologii, ehlektronnye kollekcii» (RCDL-2012): trudy. Pereslavl'-Zalesskij. 2012. Pp. 313-317(in Russian).

3. Gusev V.D., Salomatina N.V., Kuz'min A.O. i dr. Opyt ispol'zovaniya L grammnogo analiza dlya popolneniya tezaurusa po katalizu [Experience in the use of analysis "L-gram" for supplement the thesaurus on Catalysis] // «Prikladna lingvistika ta lingvistichni tekhnologii» (MegaLing-2009): trudy. Izd-vo: «Dovira». Kiev. 2009. Pp. 388-396 (in Russian).

4. Gusev V.D, Salomatina N.V. Algoritm vyyavleniya ustojchivyh slovosochetanij s uchetom ih variativnosti (morfologicheskoj i kombinatornoj) [Algorithm identifying stable word combinations considering their variations (morphological and combinatorial)] //

«Komp'yutemaya lingvistika i intellektual'nye tekhnologii» (Dialog-2004): trudy. Moscow: Nauka. 2004. Pp. 530-535 (in Russian).

5. Ermakov A.E. Avtomaticheskoe izvlechenie faktov iz tekstov dos'e: opyt ustanovleniya anaforicheskih svyazej [Automatic extraction of facts from text files: the experience of establishing anaphoric relations] // «Komp'yuternaya lingvistika i intellektual'nye tekhnologii» (Dialog'2007): trudy. T. 2. M.: Izd-vo RGGU, 2007. Pp.131-135 (in Russian).

6. Kotel'nikov D.S. , Lukashevich N.V. Iteracionnoe izvlechenie shablonov opisaniya sobytij po novostnym klasteram [Iterative extracting of templates of event description from news clusters] // «EHlektronnye biblioteki: perspektivnye metody i tekhnologii, ehlektronnye kollekcii» (RCDL-2012): trudy. Pereslavl'-Zalesskij, 2012. Pp. 292-298 (in Russian).

7. European Congress on Catalysis (EuropaCat-XI, 1-6 September, 2013). Book of Abstracts. Lyon: EuropacatLyon, France. 2013.

8. Jessop David M., Adams Sam E., Willighagen Egon L., Hawizy L., Murray-Rust P., Cheminform J. «OSCAR4: a flexible architecture for chemical text-mining». 2011. www.ncbi.nlm.nih.gov/pmc/articles/PMC3205045 (accessed: 05.06.2016).

9. Vladimir A. Ivanisenko, Olga V. Saik and others. DSystem: an Associative Network Discovery System for automated literature mining in the field of biology // http://bmcsystbiol.biomedcentral.com/articles/10.1186/1752-0509-9-S2-S2 (accessed 05.06.2016).

i Надоели баннеры? Вы всегда можете отключить рекламу.