ОСОБЕННОСТИ ФРЕЙМОВОГО АНАЛИЗА ТЕХНИЧЕСКИХ ТЕКСТОВ Д.С. Смирнов
Введение. Любой текст в целом всегда отражает и воссоздает целый мир или фрагмент такого мира, этот мир может быть реальным, т.е. иметь некоторый реальный аналог в действительности, а может быть и мнимым, воображаемым. Такой, представляемый в тексте, мир принято называть экстралингвистическим.
Экстралингвистический мир выступает в тексте как предмет (тема), предлагаемая вниманию адресата, причем такой теме приписывается какая-то глобальная характеристика, которая раскрывается в самом тексте, тогда как тема обычно выражена в заглавии [2]. Общая тема текста разбивается на подтемы, которые, в свою очередь, конкретизируется в более частных темах, и т.д. Таким образом, детализированность развернутого мира достигается развернутостью самого текста
Возможный мир, представленный в тексте, воссоздается в отдельных темо-рематических конструкциях, которые можно охарактеризовать как пропозиции [4]. Таким образом, темы текста можно представить в виде своеобразных «макропропозиций» или макроструктур текста [2].
Целью семантической модели текста является выделение содержательной информации из текста и организация ее в виде некоторого формального представления, а также формализация процессов выделения содержательной информации.
Существуют несколько различных подходов к решению вопроса моделирования семантической структуры текста. Различие в этих подходах определяется следующими факторами:
• определение объема моделирования, т.е. понятия «смысл текста»;
• цель создания модели;
• жанр анализируемых текстов.
Остановимся на рассмотрении смысла текста в ситуационном аспекте. Такой подход к содержанию делает возможным представление целостного текста в виде пропозициональных репрезентаций, где пропозиции представляют собой элементарный смысл текстовых единиц [4, 5, 13].
Необходимо также отметить, что вывод смысла текста невозможен без пресуппозициональных, стереотипных знаний, которые могут быть определены в виде структур памяти, а именно: сценариев, скриптов, ментальных моделей, моделей ситуаций [13]. В основе формального представления таких моделей лежит идея актантно-предикатного представления языковых объектов всех уровней (фразы, эпизода, текста) как некоторой ситуации [14]. Ситуация выражается актантно-предикатной структурой, в которой предикату сопоставлены семантические роли (валентности актантов), фактически или потенциально связанные с ними.
Актантно-предикатная схема анализа оказывается оптимальной формой представления знаний в виде фреймовой структуры [8], с помощью которой отождествляются текстовые ситуации. Фрейм представляет собой набор актантов, заданных семантико-синтаксическими ситуационными ролями, в вершине которого находится предикат [5].
Экстралингвистическая информация, взятая нами в качестве энциклопедических знаний о предметной области, представляется в виде лингвистического фрейма. Такой фрейм является моделью преставления человеческих знаний о мире [8]. Основной акцент при построении фрейма делается на полноту описания предметной области, освещаемой в данном фрейме. На основе информации о конкретной предметной области строится текстовый фрейм [14], который в последствии будет заполнятся текстовыми единицами, полученными в результате семантического анализа.
Материалом для анализа послужили технические тексты, принадлежащие различным
предметным областям. Они включают информационные сообщения и статьи различного объема. Выбор текстов данного жанра обусловлен тем, что в них в наибольшей степени выражен формальный и ситуационный аспект.
Актуальность данной работы объясняется возрастающим интересом к распознаванию смысла текста, притом, что в современном мире такие информационные ресурсы, как Internet, предоставляют нам огромное количество информации, реферирование которой существующими методами сталкивается со значительными временными затратами; а также возможностью алгоритмизации моделируемых процессов и использовании моделей в этих целях для анализа различных текстов. Используемый в работе алгоритм формализации смысла текстов научных статей, а также метод заполнения текстового фрейма полученными семантическими представлениями могут быть использованы для реферирования текстов, т.е. извлечения из них необходимой информации.
Фреймы как способ представления знаний. Наши знания о мире складываются по определенным сценариям из знаний о фиксированном наборе стереотипных ситуаций. Они могут быть описаны как результат формального заполнения определенных рамок. Для их обозначения вводится понятие фрейма - иерархически организованной структуры данных, которая охватывает знания о какой-то стереотипной ситуации или классе ситуаций [8].
Каждый конкретный текст можно отнести к фиксированному классу текстов, для которых заранее составлен определенный фрейм. Смысл текста можно выразить в виде заполненного экземпляра данного фрейма.
Каждая информационная среда, пользующаяся естественным языком, выделяет определенный фрагмент, состоящий из предметного поля и поля ситуаций, в которых участвуют объекты предметного поля.
Выделяют два типа знаний о предметной области: знания энциклопедического характера, т.е. знания о некоторых постоянных свойствах объектов, статические, составляющих объектное ядро предметной области, и знаний о том, в каких ситуациях данные объекты участвуют. Таким образом, знания первого типа можно назвать статистическими, а второго - динамическими [14]. Знания специалистов о статических свойствах объектов позволяет задать им разбиение множества объектов предметного поля на классы и указать место каждого объекта в конкретном классе. Обычно статические знания отражены в классификации основных понятий предметной области, упорядочены в терминах системы и не подвергаются таким спонтанным изменениям, как динамические данные, отраженные в текстах, которые называют тезаурусом предметной области [12]. И если выбор объекта описания произволен, так как определяется познавательными установками автора текста, то способ описания, т.е. сценарий, по которому объект или ситуация описывается в тексте, определен нормой, принятой в данном информационном коллективе. Выражение этой сценарной нормы лежит в основе фреймового подхода к описанию смысла текста. Результатом выражения и является фрейм, в котором упорядочены ситуативные и классификационные роли объектов.
Итак, фрейм - это иерархически организованная структура данных. Верхние уровни структуры содержат данные, всегда справедливые для анализируемой ситуации, а нижние - пустые узлы («дыры» - «slots») - заполняются конкретными данными из соответствующей ситуации. Смысл применения такой рамочной структуры заключается в том, что практически ситуация или событие подводится под определенную фрейм-структуру.
Для распознавания и представления концептуальной информации используются системы иерархических фрейм-структур: терминальные и понятийные фреймы. Терминальные фреймы описывают конкретные объекты, а понятийные - ситуации и события. Понятийные фреймы разделены на классы, в зависимости от степени обобщенности описываемых в них ситуаций. Наиболее крупным клеткам этого разбиения
соответствует гиперфрейм описание события, включающего в себя всю сеть более мелких ситуаций, которые составляют его. Фреймы могут быть ориентированы для описания конкретных и однозначных интерпретируемых ситуаций [8]. Такие фреймы называются ситуативными.
Для распознавания и записи смысла текста возникает необходимость строить специальные фреймы, ориентированные не на конкретные ситуации и объекты, а на тексты, описывающие их. Такие фреймы, называются лингвистическими [14]. Лингвистические фреймы представляют собой упорядоченные множества признаков текста и их значений. Графически такой фрейм изображается в виде графа (или дерева, в котором дуги соответствуют признакам, а узлы - их значениям). В качестве признаков фрейма выступают сведения двух типов: о самом тексте (автор, название...) и об объектах и ситуациях, описанных в нем.
Первоначально фрейм пуст: он представляет собой только структуру данных о тексте и не содержит никаких конкретных сведений. С помощью лингвистической процедуры индикаторного фрагментирования извлекаются фрагменты текста на естественном языке, которые заполняют узлы фрейма. В результате формируется экземпляр лингвистического фрейма, отражающий основное содержание исходного теста, информативное для фиксированного круга адресатов.
Факты, изначально заполняющие верхние узлы фрейма, носят характер рубрик. На основе последних весь корпус текстов разбивается на классы, что облегчает составление микрофреймов для каждой рубрики. Тогда заполненный экземпляр фрейма обеспечивает адекватное представления смысла текстов, принадлежащих заданной рубрике.
Текстовый и классификационный фреймы. Концептуальный фрейм. Тезаурус и фрейм являются элементами информационно-поискового языка: тезаурус - элемент дескрипторного информационно-поискового языка, а фрейм - элемент объектно-признакового информационного поискового языка. Единицами дескрипторного языка являются дескрипторы, а единица объектно-признакового языка - признаки-аспекты и их значения, выраженные синтаксически оформленными отрезками текста на естественном языке. В целом и тезаурус, и фрейм выполняют роль формального аппарата представления смысла в рамках своих языков.
Многоплановое использование фрейма позволяет различать два его основных вида: текстовый фрейм, отражающий средствами объектно-признакового информационно-поискового языка синтагматику и прагматику входного текста, и классификационный фрейм, детализирующий с помощью объектно-признакового информационно-поискового языка традиционные (парадигматические) отношения между дескрипторами тезауруса, включенными в конкретные тексты.
Текстовый фрейм представляет ремо-тематический фрейм, воплощенный в упорядоченной структуре текстовых признаков, значения которых неизвестны заранее и извлекаются из конкретного текста. Классификационный фрейм представляет собой пресуппозициональный фрейм, воплощенный в упорядоченной структуре классификационных признаков, значения которых известны заранее и заданы в классификации объектов предметной области [14] .
Полный фрейм-сценарий текста можно представить в виде сетки признаков текстового и классификационного фреймов, в которых одна часть ячеек заполнена заранее (классификационные признаки и сопоставленные им ячейки в классификационном фрейме), а вторая (текстовые признаки и их ячейки в текстовом фрейме) пуста и заполняется только тогда, когда фрейм-сетка накладывается на текст и из него извлекается информация, заполняющая некоторые ячейки фрейма. Далее можно ввести понятие концептуального фрейма: упорядоченная структура семантических признаков (текстовых и классификационных фреймов), характеризующих объекты, описанные в тексте, как безотносительно к ситуациям, т.е. на основе энциклопедических знаний, так и с точки зрения ролей этих объектов в конкретных ситуациях, выбранных автором текста [14].
Классификационный фрейм является иерархией дуг-признаков и узлов, заканчивающих эти дуги. Все, кроме одного, узлы классификационного фрейма заполнены заранее. Пустой остается только вершина классификационного фрейма, куда помещается название конкретного объекта. Классификационный фрейм представляет собой заранее заполненный сценарий, из которого для каждого конкретного объекта выбираются допустимые значения заранее заданных характеристик.
Термин вносится в классификационный фрейм только тогда, когда найден признак, значением которого этот термин является, и внутри фрейма установлены типы отношений найденного признака с ранее внесенными во фрейм признаками.
В рамках сценарного метода семантика текста достаточно полно описывается композицией фрейма и тезауруса. При этом фрейм выступает в роли формального аппарата распознавания и представления семантики, синтактики и прагматики текста, а тезаурус, дополняя фрейм, - как парадигматический инструмент представления информации о конкретных объектах, описанных в тексте. Сочетание тезауруса и фрейма позволяет формализовать две семантики текста: ситуативную - фреймы и объектную -тезаурус.
Общая методика построения текстовых и классификационных фреймов.
Существуют тексты трех уровней сложности: жестких (анкет), полужестких (патентов) и гибких (статей, рефератов). В нашей работе основное внимание уделяется анализу гибкого текста, т. е. научных и узкоспециализированных статей, что является сложной задачей, имеющей неоднозначное решение. Для таких текстов, ввиду нерегламентированности и размытости структуры в целом и составляющих ее фрагментов в отдельности, технологии формализации смысла данного класса текстов не разработаны полностью. Наиболее прогрессивным и современным подходом к данной проблеме можно считать зарубежные системы автоматической обработки текста, использующие поверхностно-семантическое представление: Link Grammar Parser, Mikrokosmos, Artwork, Generative Lexicon, Formal Semantics, Universal Networking Language [11].
Для того чтобы создать концептуальный фрейм, а также разработать методику построения подобных фреймов на материале газетных статей определенной рубрики, необходимо сначала провести анализ данных статей, чтобы выяснить поля слотов фреймов.
При построении текстового фрейма надо помнить о том, что все узлы, которые располагаются на верхних уровнях, заполняются заранее известными на этом этапе построения значениями. Терминальные узлы не известны заранее и на этапе построения остаются пустыми. Каждому из незаполненных узлов сопоставляются условия для их заполнения с помощью словаря индикаторов, и только после этого сегменты и фрагменты, выделенные из текста с помощью индикаторов, заносятся автоматически в терминальные узлы фрейма.
Для идентификации значений и для их строгого соответствия названиям анализируемых статей должна быть собрана вся фактографическая информация о рассматриваемой проблеме. В данной информации особенно важны ключевые даты, названия местности, фамилии личностей и т.д., с помощью которых и происходит идентификация собственных имен. Все несобственные имена, а также актанты, в роли которых выступали глаголы, были проанализированы с помощью электронной базы данных английского языка WordNet 1.6. С помощью этой базы были получены гиперонимы для всех нарицательных имен, а также глаголов, которые однозначно относят данные слова к нужному названию в слоте фрейма.
Классификационный фрейм является моделью статистических (энциклопедических) знаний о ядре объектной области. В основу построенных в данной работе классификационных фреймов легли классификации научных статей, а также элементов, непосредственно соотносящихся с техническими текстами (например, названия специальностей, узких предметных областей и т.д.). Необходимо особо отметить, что при
построении классификационных фреймов мы не ставили своей целью описать всю предметную область, так как это является весьма сложной и практически не выполнимой задачей. Поскольку классификационный фрейм является расширяемым, то добавление новых элементов в процессе исследования никак не повлияет на его результат. Основным в работе следует считать текстовый фрейм (или концептуальный фрейм), который является результатом непосредственного распознавания смысла текста.
При применении данных фреймов для анализа текста пустые Б1о1;'ы заполняются компонентами текста, таким образом, с помощью этой формальной процедуры можно получить формальное представление смысла текста. Стоит обратить особое внимание на то, что многие Б1о1;'ы останутся пустыми, так как фрейм является полной моделью знаний об окружающем мире, а каждый конкретный текст не может претендовать на полноту.
Пропозициональные структуры. Исследование связного текста, а именно, моделирование семантической структуры текста представляет собой один из подходов к общей проблеме моделирования смысла текста, интерес к которой связан, с одной стороны, с изучением процессов понимания и формирования смысла, а с другой стороны, с попыткой автоматического распознавания смысла [2].
На основании различных работ по проблеме понимания и моделей распознавания смысла можно выделить следующие принципы, на которых строится модель семантической структуры текста.
1. Рассмотрение смысла текста проводится в ситуационном аспекте, где под смыслом текста понимается описываемая им ситуация.
2. Текст представляется в виде пропозициональной репрезентации, где пропозиции представляют собой элементарные смыслы текстовых единиц [4].
3. Смысл текста - это динамическая структура, складывающаяся в результате понимания на основе различного рода когнитивных знаний. Вывод семантики текста невозможен без определенных структур памяти для накопления и обработки пресуппозиционных знаний.
4. Макроструктура, динамическая структура в подобных моделях должна получить еще один формальный или структурный уровень, на котором будет эксплицитно представлен смысл текста, выраженный в виде связанных друг с другом пропозиций.
5. В основе нашей модели лежит идея актантно-предикатного представления языковых объектов всех уровней (фраза, эпизод, текст) как некоторой ситуации. Ситуация выражается актантно-предикатной структурой, в которой предикату сопоставлены семантические роли (валентности) актантов, фактически или потенциально связанные с ними.
6. Актантно-предикатная схема анализа оказывается оптимальной формой процедурного представления знаний в виде фреймовых структур [14], с помощью которых отождествляются текстовые ситуации. Фрейм представляет собой набор актантов, заданных семантико-синтаксическими ситуационными ролями, в вершине которого находится предикат. Лексемы текста сравниваются с актантами и в случае совпадения признаков попадают в область данного фрейма [5].
7. Вывод микроструктуры текста предполагает использование различных средств. С одной стороны, главным считается референтное тождество упоминаемых в нем объектов, с другой - различные средства связи между компонентами [2].
Отношения между текстовыми единицами оформляют основные свойства текста -связность всех единиц в единое целое и средствах выражения этих связей. Пропозиции и макропропозиции являются единицами содержательного (семантического) уровня. Эти единицы в тексте явно не выражены, поэтому свое материальное выражение они могут получить в виде структур различного уровня.
Пропозиция несет информацию об отношении объектов действительности между собой, а единица структурного уровня, в которую отображается пропозиция, будет представлять собой фрейм, или актантно-предикатную структуру, которую можно
представить в виде дерева: в узлах находятся актанты - объекты, а предикат - вершина дерева (фрейма), выражающий отношение между этими объектами [3].
Поскольку не только фразу, но и весь текст можно представить в виде пропозиций высшего уровня (например, макропропозиций), существуют и структуры (фреймы) высшего уровня, которые должны соответствовать всем, приведенным выше свойствам текста, а именно: отражать его связность, целостность, тематическое и композиционное единство.
Миниситуация текста. Актантно-предикатная структура. Структуры знаний и структуры анализа. Моделирование микроструктуры (структуры содержания) или тематической структуры текста основывается на выявлении связей между цепочками символов (элементов), являющихся единицами некоторой совокупности. Эти элементы в данном случае представлены микроструктурами.
В соответствии с актантно-предикатной теорией, микроструктура содержит в качестве элементов актанты и один и только один предикат, при этом актантно-предикатная структура должна содержать один и только один предикат. Безактантные структуры, лишенные конкретной информации, не рассматриваются.
Элементы-предикаты и актанты находятся в различных парадигматических отношениях, которые выражаются в тексте различными синтагматическими средствами.
Каждый предикат задает некоторую ситуацию, которая в каждом конкретном тексте будет описана с большими или меньшими подробностями или деталями. Поэтому другим важным принципом можно считать постоянный контроль развития действия со стороны некоторой модели ситуации, активируемой данным предикатом. Чтобы определить смысл текста, необходимо выделить описанные в нем ситуации на основе знания моделей ситуации и отношений между элементами.
Структуры знаний - это Предметная область и Модель ситуации. Предметная область представляет собой важный компонент модели вывода тематической структуры текста. В качестве способа представления данных в Предметной области выбрана структура типа «сеть», которая учитывает взаимоотношения между предикатами (между мини-ситуациями). Для актантно-предикатного анализа текста необходимо иметь представления о модели ситуации. Модель ситуации необходима для понимания текста. Как семантическая сущность она формируется в результате человеческого опыта и активируется при определенных условиях в памяти человека при восприятии и понимании текста.
При анализе текста предикат, как правило, активирует ситуацию, которая основывается непосредственно на семантике предиката. Рассмотрим пример: предикат talks активирует модель ситуации [4]: talks — SIDE - PLACE. Семантическая роль SIDE может быть выражена как The USA, the president и т.д. Семантическая роль PLACE может быть выражена как region, territory, north, northern.
В соответствии с актантно-предикатной теорией, модель ситуации будет представлять собой актантно-предикатную структуру, способную учитывать появление всех возможных на данном месте актантов, которыми может управлять данный предикат.
К структуре анализа относятся актантно-предикатная структура и макроструктура. Актантно-предикатная структура выступает в качестве микроструктуры. Она содержит элементы двух типов: R - предикат и А - актант. Как уже говорилось ранее, каждая структура содержит только один предикат. Такая структура имеет общий вид Si = Ri - Am (Ri), где i = 1, .... n, n - число предикатно-актантных структур в тексте, m = 1, ...k -максимальное число актантов, релевантных для текстов данной Предметной области: Ri -Ai - ... Am.
Можно ввести параметр L, который определяет Si как линейную структуру, состоящую из предиката и некоторого набора актантов. Эта характеристика внутренне присуща любой микроструктуре. Следует помнить, что обязательным компонентом в структуре, являющейся отображением пропозициональных единиц, является предикат.
Актантно-предикатная структура является, таким образом, единицей анализа текста, аналогом фразы на текстовом уровне, и, если предикат определяет мини-ситуацию, то актантно-предикатная структура описывает конкретную ситуацию в тексте.
Актантно-предикатная структура имеет два свойства. Во-первых, это результат преобразования текстовых единиц в структурные, т.е. результат действий функций Бвеш и БвХгис (см. ниже). Во-вторых, актантно-предикатная структура состоит из элементов двух типов. Предикат Ш характеризуется следующими свойствами:
• предикат определяет наличие структуры т.е. число структур всегда равно числу предикатов;
• в предметной области предикат всегда задает некоторую мини-ситуацию, связанную с другими мини-ситуациями причинно-следственными отношениями;
• предикат Я/ не является единственным в определении мини-ситуации. Во-первых, ее могут задавать другие предикаты, находящиеся в отношении синонимии и принадлежности, т.е. существует Я/: Я/ = Я/ или Я/ > Я/ и Я/ принадлежит Я/; во-вторых, мини-ситуация может определяться только в связи с актантами, входящими в эту структуру А1 (Я/).
В структуре может содержаться т различных актантов, т.е. I = 1, ...т. Это значит, что для конкретизации М/ в данной структуре Б требуется такое количество актантов. Допускается максимальное число К различных актантов (семантических полей актантов), релевантных для данной предметной области, которые могут полностью описать данную мини-ситуацию. Для полного описания мини-ситуации в тексте может потребоваться больше одной структуры Б/. Связи с предыдущей структурой организовываются с помощью любого количества актантов.
Преобразование текстовых единиц в структурные. Пропозиции и макропропозиции являются единицами содержательного (семантического) уровня. Эти единицы в тексте явно не выражены, поэтому свое материальное выражение они могут получить в виде структур различного уровня.
Пропозиция несет информацию об отношении объектов действительности между собой, а единица структурного уровня, в которую отображается пропозиция, будет представлять собой фрейм, или актантно-предикатную структуру, которую можно представить в виде дерева: в узлах находятся актанты - объекты, а предикат - вершина дерева (фрейма), выражающий отношение между этими объектами [7].
Таким образом, если обозначить Т - текстовый уровень (множество единиц текстового уровня), Р - уровень пропозиций и Б - структурный уровень, то можно ввести две функции Бвеш и БвХгис, такие, что
Бвеш : Т ^ Р (Р = Бвеш (Т)); БвХгис: Р ^ Б (Б = БвХгис (Р)).
Функция Бвеш переводит фразу в некоторое семантическое представление, т.е. определяет план содержания как последовательности словоформ, с одной стороны, и как порции информации, с другой стороны. В результате образуется пропозиция. БвХгис переводит пропозицию в некоторое формальное представление, т.е. определяет выражение пропозиции как семантической сущности, элементарной мысли. Элементы фреймовой структуры, также как и элементы пропозиции, определяются в терминах актантов и предикатов, выполняющих определенные семантические роли. На структурном уровне мы также будем говорить о псевдотексте, поскольку БвХгис, являясь функцией типа «отображение», однозначно переводит все единицы пропозиционального уровня в структуры.
Текстовый уровень: Т1 ... Тп - множество единиц текстового уровня (фраз); Х1 ... Хп - множество элементов текстовой единицы. Р - пропозиционный уровень: Р1 ... Рт -множество пропозиций, полученных в результате применения функции Бвеш к фрагменту текста Т1 ... Тп; Р1 ... Рк - множество семантических ролей в пропозиции Р; г - предикат; а/ - актант.
Поскольку не только фразу, но и весь текст можно представить в виде пропозиций высшего уровня (например, макропропозиций), существуют и структуры (фреймы) высшего уровня, которые должны соответствовать всем свойствам текста, а именно: отражать его связность, целостность, тематическое и композиционное единство.
При анализе текста формируется актантно-предикатная структура, которую можно представить как Я (А1, ...., Ал), где Я - предикат, а А1 .... Ап - соответствующий ему набор актантов. Далее характеризуется сам актант как семантический объект и вычисляются наиболее частотные актанты. Также исследуются элементы, выступающие в качестве актантов.
Функция ББеш применяется к тексту в целом с целью выявления его макропропозиции. Она ставит в соответствие элементарным фразам соответствующие пропозициональные элементы ББеш (X/) = Р/.
Функция ББХгис применяется к пропозициональному содержанию текста. Под действием этой функции все содержательные элементы (понятия) - как низкого, так и высокого уровня - получают эксплицитное выражение в терминах актантно-предикатных структур (фреймов). Если на пропозициональном уровне пропозициональные элементы -это понятия, для которых указана семантическая роль, то содержанием структурных единиц являются элементы текстового уровня, тот или иной способ выражения данной семантической роли в данном тексте.
Можно представить последовательно действие функции БвХгис. Текст в виде набора пропозиций последовательно отображается в структурные единицы - актантно-предикатные фреймы, из которых впоследствии, при выражении связей, можно вывести макроструктуру.
БвХгис (Р) - сложная функция, так как сложный аргумент состоит из разных семантических полей. Каждый элемент отображается в один и только один соответствующий ему структурный элемент БвХгис (Р1) = Б1, ...., БвХгис (Рк) = Бк, где к -число семантических полей, или же пропозиция целиком отображается в некую структуру. Б" - структура - сложный элемент, состоящий из Б1,., Бк ячеек, каждая из которых содержит (формально) соответствующий элемент X поверхностной структуры текста (X принадлежит Т), выполняющий определенную семантическую роль. Элемент X при этом может быть простым (равняться слову) или сложным (соответствовать словосочетанию, фрагменту текста). В данном случае, как правило, X является либо словом, либо словосочетанием.
В результате применения функций ББеш и ББХгис к единицам текста - фразам — можно получить псевдотекст, т.е. совокупность микроструктур, состоящих из элементов А и Я и находящихся в определенных отношениях друг с другом. Формально эти функции являются набором правил идентификации предиката и приписывания семантических полей актантам.
Далее с помощью программного продукта WordNeX исследуются характерное «заполнение» предиката набором актантов, а также их следование, с целью получить некую общую модель пропозиции в текстах.
На основе меню различных частей речи можно построить семантическую сеть для любой предметной области. Занося поочередно все слова в базу данных WordNeX и получая для них соответствующие родо-видовые, синонимические, антонимические и прочие значения, можно составить фрейм. Единственным недостатком такого фрейма будет невозможность претендовать на полноту. Мы не сможем с уверенностью сказать, что данный фрейм отображает всю заданную предметную область.
При анализе статьи полученные данные заносились в таблицу.
art-ind sent-ind p-ind init-form tense sense 1еу t-level t-1 t-2
1 2 3 4 5 6 7 8 9 10
а1=ag а2=d-obj а3=I-obj sc1(T) sc2(L) sc3(M)
11 12 13 14 15 16
Рассмотрим подробно столбцы этой таблицы.
1) Идентификатор статьи (art-ind). В данном столбце указывается код анализируемой статьи для каждой пропозиции. Код создается на основе даты, например, О-01-00- 1 октября 2000 года - дата опубликования статьи.
2) Идентификатор предложения (send-ind). В данный столбец заносится номер абзаца в статье а* и номер предложения s* (например, а1^1), в котором встретилась конкретная пропозиция. Введение такого идентификатора необходимо для быстрого поиска предложения, содержащего пропозицию в конкретной статье.
3) Идентификатор пропозиции (p-ind). В данном столбце указывается условное обозначение вычлененной пропозиции. Идентификатор имеет следующий вид: P№ - где Р - сокращение от английского слова proposition, а № - текущий номер пропозиции. Нумерация пропозиций в одной статье сквозная.
Часто мы сталкиваемся с включенными предикатами, которые выражают отдельные пропозиции. Для них вводятся следующие обозначения: Рр - включенная пропозиция, входящая в состав другой, но имеющая собственное значение. Такая пропозиция выражена причастием или герундием (Р - сокращение от английского participle). Если включенный предикат выражен инфинитивом, то используется обозначение Рi (i - от английского infini tive). Пропозиция, образованная инфинитивом, является сильно редуцированной, так как личная форма глагола, к которой присоединяется инфинитив, несет на себе лишь часть лексического значения, например, continued to struggle - личная форма глагола отвечает только за оттенок в тексте.
В том случае, если пропозиция выражена придаточным предложением, используется обозначение s-P (сокращение от английского subordinate proposition). Нумерация в рамках одной статьи сквозная, независимо от вида пропозиции.
4) Исходная форма предиката пропозиции (init-form). Исходная форма - само высказывание - берется из текста, а также указывается его лексическая замена, если предикат выражен не одним словом.
5) Грамматическая форма пропозиционального глагола (tense). В этом столбце используется сокращение английских глагольных времен по первым буквам, например, Present Indefinite (PrI).
6) Значение глагола в WordNet (sens). В данном столбце указывается номер значения по WordNet, в котором употреблен данный глагол в тексте. Как уже упоминалось при описании WordNet, при запросе этот программный продукт позволяет получить все лексические значения слов. Все лексические синонимы группируются по смыслу и выстраиваются по частотности. То, в каком значении употреблено слово в статье, определяется специалистом (лингвистом).
7) Число уровней от глагола до вершины дерева в WordNet'e (lev). Программный продукт WordNet способен показать все дерево родо-видовых отношений для данного слова (меню: пункт Hypernims в меню: Verb). Таким образом, WordNet представляет вершину дерева - родовое слово для всех видовых слов. В столбец 7 заносится количество ступеней (ветвей) от вершины до исследуемого слова.
8) Вершина дерева в WordNet (t-level). В данном столбце указывается вершинное слова для родо-видового дерева, в которое входит исследуемое слово.
9,10) Промежуточные узлы в WordNet (t-1, t-2). Здесь указывают промежуточные узлы в родо-видовом дереве от вершины до данного слова.
11-13) Актанты (а1, а2, а3). Количество актантов зависит от валентности предиката. Каждому актанту можно присвоить свое значение. Например, актант а1 (столбец 11), как правило, является агенсом (Ag), а2 - прямым дополнение (d-obj), а3 - косвенным доплнением (ind-obj).
14-16) Сирконстанты. Sc2(T) - сирконстанта времени, Sc2(L) - сирконстанта места, sC3(M) - сирконстанта быстродействия.
Вся информация, содержащаяся в статье, может быть перенесена в таблицу. Каждая строка такой таблицы содержит информацию об одной пропозиции. Следующим этапом является заполнение текстового фрейма. При заполнении фрейма мы будем пользоваться пропозициями, соответствующими смыслу статьи, а не самим текстом статьи. Таким образом, пустые слоты фрейма будут заполнять идентификаторы пропозиций (или вся строка таблицы, в которой находится идентификатор).
Критерием для заполнения будут служить текстовые фрагменты таблицы: исходная форма предиката пропозиции, актанты и сирконстанты. Предикаты связывают между собой элементы пропозиции и придают ей семантику соответствующей предметной области. Так же как сиркоснатнты и актанты, предикаты могут адресовать к определенному слоту.
Заполнение текстового фрейма. Текстовый фрейм заполняется дважды. Первый раз фрейм заполняется экстралингвистической информацией, которая поступает не из статей, а из энциклопедический сведений. Такой фрейм будем называть полностью заполненным, т.е. каждый слот такого фрейма содержит информацию. Из полностью заполненного фрейма мы можем получить любую интересующую нас информацию о предметной области. Таким образом, можно сказать, что данный фрейм полностью описывает предметную область.
Второй раз фрейм заполняется на основе анализа статей. В свободные слоты такого фрейма заносятся код пропозиции, содержащий информацию, соответствующую названию слота, и код проанализированной статьи, которая встречается в пропозиции. При этом не исключается, что одна и та же пропозиция может попасть в несколько слотов.
При анализе статей результаты заносятся таблицу, в которой в столбце t-level указывается гипероним для предиката пропозиции на основе лексической базы данных WordNet для английского языка. Данные гиперонимы можно использовать для классификации предикатов, так как они выражают общее значенее для определенного класса предикатов. Например, для глаголов: affirm, assert, avow, aver, swan, swear гиперонимом будет глагол declare.
Обратимся к пустому текстовому фрейму. Каждый из узлов такого фрейма заполняется только релевантной для него информацией. Релевантность определяется на основе семантики данного узла, которая содержит некий родовой термин или группу терминов, описывающих тему узла. Таким образом, к определенному узлу фрейма можно отнести набор предикатов и актантов, характеризующих предметную область этого узла.
При заполнении фрейма некоторые пропозиции могут попадать одновременно в слоты нескольких узлов. Это объясняется тем, что процедура заполнения фрейма происходит сразу по трем аспектам: родовое слово по WordNet; актанты; сирконстанты.
Классификационный фрейм заполняется один раз. В соответствующих слотах классификационного фрейма указывается либо наличие признака, либо его отсутствие (да / нет, +/-). При извлечении информации из текстового фрейма возможно обращение к классификационному фрейму, также как и при заполнении текстового фрейма возможно использование части классификационного фрейма.
Заключение. В работе используется подход к распознаванию смысла текста, который характеризуется рядом следующих признаков.
1. В основе анализа лежит определение смысла текста как ситуации, допускающей представление в актантно-предикатной форме.
2. Структура содержания определяется отношениями между единицами текста -фразами, или пропозициями как элементарными смыслами фраз.
Основным в структуре анализа явилось понятие пропозиции, из которых формируются мини-ситуации. Пропозиция выражается, как правило, одной предикатной словоформой, поэтому она удобна для актантно-предикатного анализа.
В предметной области мини-ситуация может разворачиваться и уточняться информацией за счет актантов, входящих в нее. Предполагается, что такая информация достаточна для описания текстов данной тематики.
В рамках сценарного метода семантика текста достаточно полно описывается композицией фрейма и тезауруса. При этом фрейм выступает в роли формального аппарата распознавания и представления семантики, синтактики и прагматики текста, а тезаурус, дополняя фрейм, - как парадигматический инструмент представления информации о конкретных объектах, описанных в тексте. Сочетание тезауруса и фрейма позволяет формализовать две семантики текста: ситуативную - фреймы и объектную -тезаурус.
При применении данных фреймов для анализа текста пустые слоты заполняются компонентами текста, что позволяет получить формальное представление смысла текста. В ходе заполнения фрейма многие слоты остались пустыми, так как фрейм является полной моделью знаний об окружающем мире, а каждый конкретный текст не может претендовать на полноту.
Таким образом, использованный в данной работе метод семантического анализа текста - метод актантно-предикатного анализа - позволил со значительной степенью точности формально представить смысл статей. Данный метод можно использовать для всех типов текста с явно выраженным ситуационным аспектом.
Разработанный метод формального представления информации может найти применение в области реферирования - преимущественно для тех текстов, в которых ситуативный аспект выражен в наибольшей степени (а именно, информационные тексты, научно-популярные статьи т.д.). На основе данной работы можно сформировать алгоритм автоматической обработки текстов для формального представления их смысла.
Литература
1. Баталова Т.М. Соотношение предикативных и релятивных отрезков текста. Автореф. дисс. на соиск. уч. степ. канд. филол. наук. М., 1977.
2. Баранова О.И. Моделирование макроструктуры текста. Автореф. дисс. на соиск. уч. ст. к. филол. наук. СПб, 1993.
3. Блюменау Д.И. Проблема свертывания научно-технической информации. Л.: Наука, 1982.
4. Богданов В.В. Семантико-синтаксическая организация предложения. Л., 1977.
5. Ван Дейк Т. А. Язык, познание, коммуникация. М.: Прогресс, 1989.
6. Гончаренко В.В., Шингарева Е.А. Фреймы для распознавания смысла текста. Кишинев, 1984.
7. Зильберман Л.И. Лингвистика текста и обучение чтению английской научной литературы. М., 1988.
8. Минский М. Фреймы для представления знаний. М.: Энергия, 1979.
9. Откупщикова М.И. Синтаксис связного текста. Л., 1982.
10. Рубашкин В.Ш. Представление и анализ смысла в интеллектуальных и информационных системах. М.: Наука, 1989.
11. Сокирко А.В. Обзор зарубежных систем автоматической обработки текста, использующих поверхностно-семантическое представление, и машинных семантических словарей //НТИ. Сер.2. Информационные процессы и системы. 2000. № 12.
12. Черный А.И. Информационно-поисковые языки: типы, принципы построения, совместимость. // НТИ. Сер.2, 1978, № 1
13. Шенк Р. Обработка концептуальной информации. М.: Энергия, 1980.
14. Шингарева Е.А. Семиотические основы лингвистической информатики. Учебное пособие. Л., 1987.