М.В. Ермаков
К выявлению лексического ядра лингвистической ситуации (на материале текстов криминальные сводок)
Статья посвящена одной из проблем семантического анализа текста - выявлению описываемых этим текстом ситуаций. Смысл ситуации не всегда выражается синтаксически главным словом (например, глаголом). Проводится исследование с целью выявить лексическое ядро ситуации - слово или группу слов, наиболее точно отражающих её смысл. В качестве кандидатов рассматриваются вершины предложений (на материале текстов криминальны« сводок). Дается статистика. Для разный типов вершин предложений предлагаются некоторые принципы выделения лексического ядра ситуации.
Ключевые слова: семантический анализ, информационно-лингвистическая модель, вершина предикативного сегмента, лексическое ядро ситуации, семантическое отношение, лексическая функция, информационный вес.
1. Постановка задачи
Автоматическое понимание текста, несмотря на долгие годы лингвистической работы, пока что остается недостижимой целью. Вероятно, существуют перспективные подходы к решению этой проблемы, призванные и объединить предыдущие опыты, и несколько отклониться от устоявшейся парадигмы. В качестве одного из таких нестандартных подходов я рассматриваю информационно-лингвистическую модель (ИЛМ)1. Эта модель неоднократно описана в работах H.H. Леонтьевой, отдельные её этапы были частично реализованы в системах ФРАП2, Диалинг, aot.ru3, но она ждет своего развития. Одно из утверждений ИЛМ состоит в том, что можно ослабить требования к результатам синтаксического анализа (не обязательно доводить синтаксический анализ до построения идеального во всех деталях синтаксического представления): многие проблемы можно передать семантическому уровню анализа. В рамках понятий данной модели, в границах её лингвистической части, находится и эта работа.
© Ермаков М.В., 2009
В настоящее время появилась многообещающая разработка в области синтаксического анализа, которая позволяет нам проводить на ее базе семантические исследования. Я имею в виду сегментационный анализ русских предложений Т.Ю. Кобзаревой4. Этот анализ достаточно надежен и удобен, его легче реализовать на практике, чем признанные подробные синтаксические анализаторы систем машинного перевода. Уже на этапе сегментации (предсинтаксического анализа) вводятся простые семантические дескрипторы. Это обстоятельство делает возможным использовать его результаты как старт для интеграции анализа в более сложные информационные процессы, описанные в ИЛМ.
Результатом синтаксической сегментации Т.Ю. Кобзаре-вой, по сути дела, является разбиение текста на простые предложения русского языка, что позволяет повернуть последующий анализ в сторону получения информации о целом тексте. На следующем этапе обработки уже становится возможной стадия семантического анализа сегментов - простых предложений (далее в работе они будут называться предикативными сегментами).
Автора данной работы интересует в первую очередь выделение не синтаксически, а семантически главных единиц в этих сегментах, таких единиц, которые в рамках ИЛМ получат статус Ситуации. На более поздних этапах анализа из них будут построены единицы типа Факт как готовые блоки для базы знаний прикладной системы5.
Построение лингвистических единиц типа «Ситуация» начинается с выявления её семантического центра, то есть семантически главного слова в составе каждого отдельного сегмента. Это так называемое лексическое ядро (ЛЯ), оно в метаязыке ИЛМ и представляет Ситуацию. Нахождение ЛЯ - нетривиальная задача, потому что ЛЯ как семантическая единица не обязательно совпадает с синтаксически главным членом предикации. Коротко об этом сказано в книге Н.Н. Леонтьевой6.
В качестве материала исследования лексических ядер ситуаций в предикативных сегментах было рассмотрено около 180 текстов криминальных сводок. Более конкретно, цель работы можно сформулировать так: исследовать возможный состав лексических ядер ситуаций, описываемых в узкой предметной области (ПО) «Криминал», или «Преступления». Автор имеет опыт работы с текстами данной ПО7, а также опыт составления словарных статей слов (заполнение их семантических полей), поэтому его интересует еще граница между линг-
вистическими и собственно предметными источниками знаний. Однако повторю, что данная работа не выгходит за рамки лингвистического анализа.
2. Теоретические основы работы
Информационный язык-посредник В работе будет использоваться достаточно устоявшийся семантический аппарат модели ИЛМ. Он включает в себя информационный язык-посредник (ИЯП) и другие средства описания, применяемые в семантическом словаре «Руслан»8. Замечу, что в числе средств описания используются и лексические функции (ЛФ)9. Минимальная единица информации в ИЛМ может быть выражена формулой Р (А,В). Формулы такого вида выражают простейшее бинарное семантическое отношение (Р) между элементами А и В. Например, формула «Инструмент (пистолет, выстрел)» соответствует высказыванию «выстрел из пистолета». В формуле Р (А, В) член А является семантически зависимым, а В - семантически главным (читается: «А находится в отношении Р к В», или «А есть Р для В»), что легко изобразить графически с помощью стрелок, как в синтаксическом дереве зависимостей:
В выстреШ:
Р
Инструмент
А пистолет
Таким способом можно представить любое семантическое отношение (СемО) между двумя участниками (членами отношения Р), а также целый семантический граф, состоящий из таких отношений, для любого отрезка текста, чем мы будем пользоваться в данной работе10.
Кроме семантических отношений, мы также будем опираться на понятие семантических характеристик - смыслов^гх элементов, или примитивов, входящих в описание значений многих лексем. Список устоявшихся семантических отношений и семантических характеристик модели ИЛМ приведен в описании семантического словаря11.
Важнейшей задачей ИЛМ является выделение и обработка узлов типа «Ситуация» (СИТ), которые, получив оценку как полнозначные единицы («события» и «текстовые факты»), могут войти в базу знаний системы.
Лексическое ядро Как у синтаксического, так и у семантического представления предикативного сегмента есть главный член. В синтаксическом представлении это главное слово синтаксической предикативной группы, оно и будет считаться первым «кандидатом в лексическое ядро» соответствующей семантической группы. Однако кандидат должен пройти проверку на «полноценность»: ЛЯ семантической группы должно соответствовать требованиям, предъявляемым к устойчивым семантическим узлам. Одним из свидетельств устойчивости единицы ЛЯ является достаточный информационный вес12.
Информационный вес лексемы задается лингвистом в се-
13
мантическом словаре13: различаются полнозначные лексемы и лексемы с более общим и размытым значением, имеющие валентность на уточнение своего содержания. Таковы слова мероприятие, факт, вносить(изменение), совершать(преступление) и так далее. Часть таких полупустых лексем оказывается лексическими функциями, в основном это синтаксические лексические функции: Oper, Real, Func, Labor и др.
Часть выбранных на первом этапе анализа кандидатов в ЛЯ - это слова-отношения, вернее, полуотношения, например, находиться, принадлежать, значить, являться. В конечном счете большая часть их перейдет в соответствующие семантические отношения, в данном случае в СемО Локализация (,), Принадлежность (,), Содержание (,), Равно (,).
Как говорилось выше, первыми кандидатами в семантические ЛЯ (СИТ) являются синтаксические вершины предикативных сегментов, ниже будет подробнее рассмотрен их состав в текстах криминальных сводок.
3. Вершины предикативных сегментов
При рассмотрении текстов предметной области «Преступления» были получены следующие виды кандидатов в ЛЯ, выступающих в качестве синтаксической вершины предикативного сегмента:
1. Полнозначный предикат, выраженный одной лексемой:
Например, ограблен офис коммерческой фирмы, неизвестные избили, потерпевшего и похитили верхнюю одежду, задержаны нарушители таджикско-афганской границы, убит сторож предприятия. Это наиболее распространенный и простой случай.
2. Полуустойчивое словосочетание, обладающее фразеологическими свойствами:
Например, выходить на след преступника, задержать с поличным, поставить похищение людей на поток, покончить жизнь самоубийством; синтаксической вершиной здесь является слово со сравнительно небольшим информационным весом.
3. Предикат, не выраженный лексически - «нулевой» предикат: Например: Это [О] показатель увеличения эффективности работы правоохранительных органов; В столице действуют мощные сатанинские организации, а по стране их [О] свыше ста.
4. Слово, являющееся лексической функцией: Например, выпускать контрафактную продукцию, подвергаться экспертизе, проводить операцию по задержанию преступника. При задержании преступник оказал яростное сопротивление.
5. Слово, выражающее семантическое отношение: Например, ущерб составил 4 млн. долларов - Значение
(4 млн. дол, ущерб ), заказчиком преступления был муж убитой - Равно (муж, заказчик).
Всего в рассмотренных текстах криминальных сводок насчитывалось более 2,5 тысяч вершин предикативных сегментов - кандидатов в ЛЯ Ситуации. Типы этих вершин приведены в следующих таблицах:
Табл.1. Внешнее выражение вершины предикативного сегмента:
№ Выражение вершины предикативного сегмента Кол-во примеров в корпусе
1. «Нулевой» предикат 26
2. Полуустойчивое словосочетание 28
№
Табл. 2. Лексические функции в качестве вершин предикативных сегментов
Кол-во примеров
в корпусе__в корпусе
Кол-во
Тип вершины предика- п име ов ^ Тип вершины преди-тивного сегмента примеров - кативного сегмента
1. «Полнозначный» предикат 1817 10. Func0 10
2. Reali 101 11. Real2 5
3. Caus (и Prepar) 90 12. Fin (Стадия: окончание) 4
4. Operi 67 13. Fact2 2
5. Facto 50 14. Func2 2
6. Oper2 34 15. Labori2 (и Labreali2) 2
7. Liqu 26 16. Facti 1
8. Incep (Стадия: начало) 17 17. Oper3 1
9. Cont (Стадия: продолжение) 13
Табл. 3. Семантические отношения в качестве вершин предикативных сегментов
№ Тип вершины преди- ь*(1тнп1тгл рогшоита Кол-во примеров в № Тип вершины преди- 1/*«ДТТТЖЭ ИЛГП ЛАГЛЮПТО Кол-во примеров в
Ки 141Вг1 и 1 и Мсп 1 а корпусе Км1 *11>Ни1 и Мсп 1 <1 корпусе
1. «Полнозначный» пре- 21.
дикат 1817 Субъект (,) 4
2. Локализация (,) 47 22. Актант (,) 4
3. Пациент (,) 37 23. Агент (,) 3
4. Признак (,) 33 24. Часть (,) 3
5. Значение (,) 29 25. Больше (,) 3
6. В-составе (,) 29 26. Источник (,) 2
7. Модальность (,) 22 27. Масштаб (,) 2
8. В-соответствии (,) 17 28. Материал (,) 2
9. Принадлежность (,) 17 29. Идентификатор (,) 2
10. Равно (,) 17 30. Одновременно (,) 2
11. Референт (,) 13 31. По-сравнению (,) 2
12. Функция (,) 12 32. Причина (,) 2
13. Время (,) 9 33. В-качестве (,) 1
14. Цель (,) 8 34. Вместо (,) 1
15. Результат (,) 8 35. Имя (,) 1
16. Адресат (,) 8 36. Количество (,) 1
17. Разновидность (,) 6 37. Специализация (,) 1
18. Связан (,) 6 38. Уточнение (,) 1
19. Оценка (,) 6 39. Тема (,) 1
20. Назначение (,) 4 Всего предикативных сегментов: Более 2500
Наиболее интересными и разнообразными оказались «не-
полнозначные ЛЯ», в которые вошли ЛФ и слова-отношения. Объединяет эти лексемы то, что они обладают сравнительно небольшим информационным весом и требуют уточнения своего содержания через свои зависимые лексемы.
Среди самых частых оказываются ЛФ Rea^ и Oper!, что соответствует официальному стилю криминальных сводок. Большая доля этих синтаксических ЛФ описывает действия «проведения расследований», «принятия мер по борьбе с чем-либо» и другие акты правоохранительных органов. Rea^ и Fact0 встречаются чаще, чем Operi и Func0, потому что в исследуемых текстах чаще говорится о законченных, свершившихся событиях.
Стиль криминальных сводок повлиял и на частоту ЛФ Caus, около половины примеров на которую - клише возбуждено уголовное дело. В первые 15 строк самых частых случаев входит и Liqu - это в основном слова, обозначающие действия сил правопорядка по прекращению преступных ситуаций.
Fact0 встречается часто, потому что в сводках говорится о разных уже случившихся происшествиях.
Наличие ЛФ Орег2 и СемО Пациент (,) говорит о наличии глаголов, показывающих ситуацию со стороны её пассивного участника (в том числе жертв преступлений).
Локализация (,) встречается довольно часто, потому что постоянно необходимо указывать местонахождение разных улик для следствия и т.д. Признак (,) часто встречается потому, что в текстах много словосочетаний вида «глагол быть + прилагательное». Значение (,) показывает определенное состояние параметра. Это СемО встречается, например, в предложениях: Стоимость драгоценных камней составляет 23 тыс. долларов, Общий вес изъятого наркотика составляет 21,3 кг.., Стоимость только одного килограммагероинаначерномрын-ке - [О] 50 тысяч долларов.
ЛФ часто сочетаются с классом лексем вида мероприятие (сюда входят разные канцеляризмы, в корпусе было 14 примеров канцеляризмов в качестве дополнений к вершинам предикативных сегментов). Примеры: принять меры к розыску злоумышленников, меры по установлению личности погибшего, проводятся розыскные (оперативно-следственные, профилактические) мероприятия, проходят мероприятия, направленные на поддержку боевиков, хулиганские действия, факты грабежей. Интересно, что лексические функции могут надстраиваться над канцеляризмами и наоборот, например: хулиганские действия - канцеляризм, пресечение хулиганских действий - добавляется лексическая функция Ыди, мероприятия по пресечению хулиганских действий - снова добавляется канцеляризм, проводить мероприятия по пресечению хулиганских действий - добавляется ЛФ Орег1 (пример вымышленный).
4. О выборе лексического ядра ситуации
Как уже говорилось выше, ЛЯ ситуации должно отвечать требованиям, предъявляемым к семантическим узлам. Рассмотрим, подходят ли кандидаты, приведенные в таблицах 1 - 3, на роль ЛЯ. Для этого вспомним, что мы рассматриваем вершины предикативных сегментов. Возможны следующие случаи:
1. Если у вершины сегмента нет зависимых предикативных лексем, то эту вершину приходится выбрать лексическим ядром ситуации как единственный вариант.
2. Пусть у вершины сегмента есть зависимые предикативные лексемы. Тогда:
2.1. Если вершина сегмента - предикат с достаточным (большим, чем определенная норма) информационным весом, заданным в словаре (к этому случаю относится фразеологическое словосочетание), в качестве ЛЯ выбирается эта самая вершина.
2.2.Если вершина предикативного сегмента - лексическая функция, то в общем случае лексическим ядром ситуации следует считать ЛФ плюс её аргумент (если аргумент подходит на роль ЛЯ, для чего проверку надо проводить еще раз - рекурсивно). Из рассмотренных в данной работе ЛФ, на взгляд автора, только Caus и Liqu обладают нужным информационным весом, чтобы стать ЛЯ ситуации: Caus (P) создает нечто, выраженное своим аргументом P, то есть является отдельной ситуацией. Если P - ситуация, то Caus является отдельной ситуацией по сравнению с P. Аналогично Liqu (P) уничтожает P и является новой ситуацией по сравнению с P. В группу Caus и Liqu можно отнести также Prepar по схожим аргументам (подготовка ситуации P не есть та же ситуация, что и P).
Другие рассмотренные ЛФ (Operb Funcj, Labor,), Realb Facti, Labrealjj, Incep, Cont, Fin) передают некоторые модальности и признаки ситуации или её актантов. Так, Operi, Funci и Labor, осуществляют коммуникативное выделение i-ого (и j-ого) актанта ситуации. Realj, Facti и Labrealjj, кроме этого, еще указывают на законченность, реализацию ситуации. Incep, Cont и Fin показывают стадию ситуации. Итак, ЛФ, перечисленные в этом абзаце, могут быть лексическим ядром ситуации только в сочетании со своими аргументами.
2.3. Если вершиной предикативного сегмента является слово-полуотношение, соответствующее некоторому СемО, необходима проверка, может ли это СемО считаться ЛЯ ситуации: достаточен ли его информационный вес, нет ли более весомой ситуации среди членов СемО, и др. Эта проверка требует анализа контекста, поэтому здесь будут приведены только некоторые наблюдения. Большинство СемО из таблицы 3 могут рассматриваться как ЛЯ ситуации. Однако есть СемО, которые выделяют некоторые актанты Ситуации или её модальности, или идентификаторы. Эти СемО не следует считать ЛЯ Ситуации. Среди них такие СемО, как:
а). СемО, выражающие параметры ситуации:
• Модальность (,) - например, Модальность (возможно, утверждать) в предложении Можно утверждать, что банда причастна к преступлению;
• Время (,) - например, Время (будущее, решать) в предложении Этотвопрос будет решать следствие или Время_до (-
подготовка, проведение операции) в предложении Проведению операции предшествовала долгая подготовка;
• Стадия (,) - например, в предложении Следствие по делу продолжается - Стадия (продолжение,следствие);
• и другие СемО
б). СемО, выделяющие актанты ситуации, например:
• Адресат (,). Например, Адресат (предприниматель, взрывное устройство) в предложении В Краснодарском крае предприниматель получил в посылке взрывное устройство;
• Субъект (,) - в примере Водитель был в изрядном подпитии можно выделить Субъект (водитель, пьянство);
• Пациент (,). Например, Пациент (бизнесмен, взрыв) в предложении Бизнесмен пострадал при взрыве;
в). СемО с явно недостаточным информационным весом, например, СемО Связан (,). Ср. Связан(убийство, деятельность) в предложении Убийство связано с деятельностью предпринимателя.. Однако при отсутствии других кандидатов любое СемО может стать лексическим ядром (см. пункт 1 в этом разделе), что и должно произойти в данном примере.
Проверка, описываемая в этом разделе, должна проводиться для всех зависимых членов предикатов - кандидатов в ЛЯ. Если какой-то зависимый член В является более вероятным кандидатом в ЛЯ, чем его синтаксический хозяин А, процедура повторяется рекурсивно уже для зависимых членов В, пока не найдется наиболее подходящий кандидат в ЛЯ. Эта процедура также позволяет обрабатывать канцеляризмы.
Хочется отметить, что все пункты этого раздела следует рассматривать в качестве наблюдений, а не в качестве чётко сформулированных правил.
5. Выводы о семантике ситуации
Итак, довольно частым является случай, когда нужно выделить ЛЯ ситуации среди нескольких кандидатов, - нужно найти семантически главный член, обладающий наибольшим информационным весом, который и должен стать ЛЯ. Остальные члены на материале исследуемых текстов - это ЛФ, слова-полуотношения и обозначения действий и событий без уточнения их содержания (факт, действие, мера, мероприятие). ЛФ и слова-отношения, несмотря на небольшой информационный вес, имеют свое значение, которое должно учитываться для правильного понимания Ситуации в целом, а не просто ее лексического ядра.
Правильное понимание Ситуации - это правильные семантические выводы из Ситуации. Такие выводы можно делать только тогда, когда полностью известен её состав (в том числе актанты, модальности) и контекст. Однако некоторые выводы об оценке, модальности ситуации можно делать уже на уровне определения ЛЯ Ситуации и «надстроек» над ЛЯ, упомянутых в предыдущем пункте. Постараюсь показать это с помощью оценки ситуации как положительной (+) или отрицательной (-). Например, в системах извлечения частной информации (Information Extraction14) разделяются действия преступников и действия правоохранительных органов, которые противоборствуют друг другу, что позволяет считать действия первых по умолчанию отрицательными, а действия вторых - положительными. Также разделяются лица (на преступников, потерпевших и правоохранителей), выделяются объекты, несущие вред или, наоборот, пользу, материальную выгоду и так далее. Приведу пример такого разделения на материале глаголов из исследуемых текстов:
На данном материале часты такие глаголы, обозначающие противодействия правоохранительных органов преступникам: задержать, арестовать, изъять; выяснения информации или обнаружения улик: обнаружить, найти, установить, выяснить, выявить, раскрыть, разыскать; сообщения новой информации: сообщить, отметить. Такие частые примеры из текстов, как принимать (меры), вести (расследование), пресекать (деятельность преступной группы), относятся к лексическим функциям.
Для стороны преступников наиболее часты глаголы, обозначающие действия избить, напасть, ограбить; иногда встречаются глаголы планирования преступлений: планировать (завербовать в секту), решить (угнать самолет). Здесь также возможны ЛФ - нанести (ранение), подвергнуть (физическим истязаниям) и т.д.
В отличие от работ модели Information Extraction в ИЛМ положительная или отрицательная оценка значения лексемы задается в семантическом словаре. Однако она является оценкой по умолчанию и дается без учета контекста, а в общем случае оценка Ситуации должна вычисляться с учетом смысла всех входящих в неё ЛФ, СемО, а также её участников. Например, рассмотрим следующие фразы:
1. За прошедшие суткив ходе оперативно-профилактических мероприятий уничтожено несколько складов оружия и самодельное взрывное устройство.
Схема 1. СемП примера (1).
Комментарий к схеме: Аббревиатура МНУ обозначает множественный узел, образованный сочинением однородных членов. Рамкой отмечены именные группы, объединенные в отдельный семантический узел.
Лексическим ядром здесь является ЛФ Ыди. «Ликвидация» имеет по умолчанию отрицательную оценку в семантическом словаре. Однако если ликвидируемый объект - предмет, кау-зирующий вред, его уничтожение может быть оправдано, т.е. для конструкции Ыди+(«плохой» объект) вычислится положительное значение. Оружие и взрывное устройство как раз относятся к таким объектам. Кроме того, положительную оценку всей ситуации придает то, что деятелем являются правоохранители.
Формально такой вывод не всегда верен, но является нормой оценки. Можно с определенной вероятностью утверждать, что уничтожение складов является одной из ситуаций в составе оперативно-профилактических мероприятий, а оперативно-профилактические мероприятия - это действия оператив-
ников (милиционеров). Чтобы сделать такой вывод, нужно принять следующие допущения:
1) предложная группа «в ходе» указывает на одновременность, однородность двух ситуаций;
2) если неизвестен деятель некоторого действия А, и есть однородное или одновременное действие В, при отсутствии явно выраженных противоречий можно считать, что в обеих ситуациях один и тот же деятель;
3) валентность «Содержание» лексемы «мероприятие» может реализовываться через прилагательное;
4) деятели лексемы «мероприятие» и его содержания совпадают;
5) «оперативно-профилактический» означает некоторые действия оперативников.
Теперь на основании (в), (г) и (д) можно с некоторой уверенностью утверждать, что оперативно-профилактические мероприятия - это действия оперативников. На основании (а) и (б) можно считать, что оперативники также осуществляли уничтожение складов оружия и т.д. Таким образом, мы можем построить семантическое представление фразы (см. Схему1).
2. Сотрудниками милиции пресечена незаконная деятельность 54-летнего директора филиала государственного унитарного предприятия.
Здесь правильно оценить ситуацию позволяет прилагательное «незаконная», которое придает отрицательную оценку деятельности неназванного директора (при этом частично отвечая на вопрос о содержании деятельности, частично заполняя эту валентность). Таким образом, уничтожение этой плохой ситуации положительными лицами - это явно положительное действие.
3. Уничтожено 14 мини-заводов по переработке нефти.
Ыди, как обычно, имеет отрицательную оценку, которая
временно остается у всей ситуации, так как заводы по переработке нефти не являются «вредными» объектами, а деятель неизвестен. Однако для более точной оценки необходимо выяснить деятеля (агента) ситуации и принадлежность и назначение заводов. Это требует проверки дополнительных связей ситуации, контекста. Приведу контекст этого предложения:
4. Сотрудники милиции провели 20 оперативно-розыскных мероприятий. Проверено более 15 тыс. человек, досмотрено более 7 тыс. автомобилей. Изъяты гранатомет, ав-
томат, 2охотничъихружъя, 31 выстрелкгранатометам, 27 мин,, 10гранат, несколъкотысячпатронов, 400гвзрыгвчатки Уничтожено 14 мини-заводов по переработке нефти.
На основании синтаксического параллелизма предложений можно сделать вывод об их объединении в общую группу ситуаций, которая раскрывает содержание «оперативно-ро-зыгскныгх мероприятий». При некоторых допущениях, подобных приведенным в комментариях к примеру (1), можно говорить, что агент - правоохранительные органы. Если агентом ликвидации являются правоохранительные органы, возникает противоречие: положительный герой не должен совершать отрицательных действий. Этот конфликт может быть разрешен на основании пресуппозиции о законности действий правоохранителей, данных о принадлежности заводов «плохим персонажам», или по аналогии с другими текстами, где встречается уничтожено 11 мини-заводов по незаконной переработке нефти.
Итак, Liqu (P1) может менять положительный смысл P1 на отрицательный (или отрицательный смысл на положительный), если этому не противоречат признаки и модальности ситуации (то есть нет отрицания, действие полноценное, реальное, а не возможное или желательное), если это согласовывается с другими ситуациями, а окончательная оценка вписывается в сценарий поведения лиц и развития событий криминальных сводок.
Не только Liqu, но и многие другие варианты ЛФ могут влиять на оценку ситуации в том или ином аспекте. Например, Caus говорит о создании новых объектов или ситуаций, которые могут присутствовать дальше в тексте. Сама исходная семантика ЛФ Real1, Fact0, Fin позволяет говорить о законченности и совершенности действия - то есть это действие с определенной проверкой можно записать в базу знаний как реальный факт.
Очень важны с этой точки зрения СемО, описывающие параметры Ситуации - Модальность (,), Время (,), которые часто указывают на то, что действие не является реальным, а лишь желательным, возможным или просто должно произойти в будущем. Такое действие не может быть внесено в базу знаний как факт.
Многие из этих наблюдений могут быть сформулированы в виде правил естественного логического вывода15. В данной статье я ограничиваюсь формулировкой наблюдений.
6. Выводы и заключение
По обработанному материалу можно сделать следующие выводы:
1. ЛФ, СемО и канцеляризмы могут сочетаться друг с другом, относясь к одной и той же ситуации. Это напоминает синтаксическое вложение сегментов, исследованное в работе Т.Ю. Кобза-ревой16, но уже на семантическом уровне. Вместе они образуют ЛЯ одной ситуации.
2. В таких случаях при выделении имени предполагаемой ситуации анализ должен идти от синтаксически главного глагола к зависимым, причём, если информационный вес главного глагола слишком мал и меньше зависимых, он может являться семантически зависимым от своего синтаксического актанта, перейти в ЛФ или СемО.
3. Использование одновременно аппарата ЛФ и семантических отношений приводит к тому, что иногда одно и то же явление можно формально описать разными способами (например, заниматься сбытом оружия - Орег1 или Функция (,). Я считаю, что тут нет большого противоречия, так как связь ЛФ и её аргумента можно выразить с помощью смыслового отношения. То есть и ЛФ, и СемО сходны в том, что могут выражаться предикативными сегментами и связывать ситуацию и её актант. Однако данная мысль нуждается в более подробной проверке.
4. Знания о структуре Ситуации, составе её ЛЯ и вложенных ситуаций позволяют делать семантические выводы о данной Ситуации, в частности, давать ей оценку как «положительное» или «отрицательное» событие.
Все сказанное выше позволяет нам считать необходимым дальнейшее исследование вложений предикаций в простых предложениях. Уточнение алгоритмов поиска ЛЯ Ситуации и проверка работы этих алгоритмов в реально действующей системе, например, построенной на базе анализа предикативных сегментов, поможет дополнительной апробации метаязыка и правил семантического вывода.
Примечания
1 См.: Леонтьева H.H. Автоматическое понимание текстов: системы, модели, ресурсы. М.: .Академия, 2006.
2 См.: Машинный перевод и прикладная лингвистика. Проблемы соз-
дания системы автоматического перевода. Сборник научных трудов МГПИИЯ им. М.Тореза. Вып. 271. М., 1987.
См.: СокиркоА.В. Семантические словари в автоматической обработке текста (по материалам системы ДИАЛИНГ). М., 2001. // Сайт рабочей группы Aot.ru. - Электрон. Данные. - 2003-2008. - Режим доступа: http://www.aot.ru/docs/soklrko/soklrko-candld-1.html. - Загл. С экрана. - Данные соответствуют 22.02.09.
См.: Кобзарева Т.Ю. Принципы сегментационного анализа русского предложения // Московский лингвистический журнал /Гл. ред. Гиндин С.И. М.: Изд-во РГГУ, 2004. Том 8. №"1. С. 31-80. Леонтьева H.H. Указ. соч. С. 133 См.: Леонтьева H.H. Указ. соч.
См.: ЕрмаковМ.В. Коррекция смысловых отношений как этап семантического анализа (на материале криминальных сводок) // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог 2007». М.: Изд-во РГГУ, 2007. С. 178-182. См.: Леонтьева H.H. К теории автоматического понимания естественных текстов. Часть 2. Семантические словари: состав, структура, методика создания - М.: Изд-во МГУ, 2001.
См.: ЖолковскийА.К., МельчукИ.А. О возможном методе и инструментах семантического анализа. // НТИ, N6. 1965. С. 23-28 Леонтьева H.H. Автоматическое понимание текстов. С. 111 Леонтьева H.H. К теории автоматического понимания естественных текстов. С. 37-39
Леонтьева H.H. Автоматическое понимание текстов. С. 141 См.: Леонтьева H.H. К теории автоматического понимания естественных текстов.
См.: GrishmanR. Information Extraction // The oxford handbook of computational linguistics / Ed. by Ruslan Mltkov. Oxford etc: Oxford university press, 2003, P. 545-559. См.: Ермаков М.В. Указ. соч. См.: Кобзарева Т.Ю. Указ. соч.
3
4
8
9
14