Научная статья на тему 'Юридические документы: семантический анализ без использования лингвистических моделей'

Юридические документы: семантический анализ без использования лингвистических моделей Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
181
118
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Юридические документы: семантический анализ без использования лингвистических моделей»

кретнее, реализацией клиентов существующих СОМ-серверов большинства популярных программ создания и обработки документов.

Важным свойством, отличающим модель от существующих систем поиска информации, является ориентация системы поиска и классификации на пользователя, которая обеспечивается анализом документов, утвержденных пользователем, как соответствующих запросу (выраженному понятием), и выявленных новых признаков, обеспечивающих косвенную ассоциацию документов и понятий.

Экспериментальная программная система, реализующая изложенную структурно-логическую модель, состоит из нескольких программных модулей:

- интерфейсная часть "взаимодействия с пользователем" реализует часть, требующую участия в реальной системе пользователя: создание, удаление, изменение понятий и признаков; просмотр и утверждение документов; запуск и регулирование системы автоматического построения уровня признаков на основе утвержденных документов;

- поиск новых документов и ассоциирование их с существующими признаками;

- ассоциирование существующего уровня документов с существующим уровнем признаков.

Ассоциативная связь между понятием и признаком характеризуется коэффициентом ассоциативно-

сти. Начальный коэффициент ассоциативности задается пользователем. Начальное значение является очень приближенным и, в принципе, может быть указано единичным. Начальное значение коэффициента ассоциативности связи понятия и признака определяет первичное множество ассоциированных с понятием документов, которые для успешной дальнейшей работы системы должны содержать документы, утверждаемые пользователем как подходящие. На основе утвержденных пользователем документов множество признаков, ассоциированных с понятием, а также существование коэффициентов ассоциативности в конечном итоге реализуют поиск неатомарных обозначений признаков и выражений И-ИЛИ. При этом обозначения задаются атомарно, а выражения автоматически формируются системой на основе "предыдущего опыта". К тому же в системе заложена нечеткость вычислений (точнее, ассоциирования), позволяющая пользователю регулировать поток выдаваемых документов.

Список литературы

1. Гаврилова Т. А., Червинская К.Р. Извлечение и структурирование знаний для экспертных систем. - М.: Радио и связь, 1992.

2. Ермаков А.Е., Плешко В.В. Ассоциативная модель порождения текста в задаче классификации // Информационные технологии. - 2000. - № 12. - С.34-37.

ЮРИДИЧЕСКИЕ ДОКУМЕНТЫ: СЕМАНТИЧЕСКИЙ АНАЛИЗ БЕЗ ИСПОЛЬЗОВАНИЯ ЛИНГВИСТИЧЕСКИХ МОДЕЛЕЙ

И.Л. Кафтанников, С.Е. Коровин

Автоматический смысловой анализ юридических документов чрезвычайно затруднен, несмотря на то, что большинство из них имеют электронные копии. На наш взгляд, это объясняется следующим.

Первая причина заключается в том, что юридические документы представляют собой естественноязыковые тексты, то есть фактически неформализованную информацию.

Существует два основных подхода к реализации семантического анализа естественно-языковой информации.

Первый подход (назовем его лингвистическим) концентрирует внимание исследователей на поиске методов интерпретации синтаксических и поверхностно-семантических конструкций естественного языка - ассоциации лексем и словокомплексов текста с некоторой соответствующей им системой понятий. Такая постановка проблемы позволяет эффективно решать задачи, связанные со знаковой системой языка (задачи смыслового поиска, автоматического реферирования и т.п.). Однако поверхностно-семантические модели (словари понятий, на которые отображаются лексемы и правила этого отображения) сложны, объемны и существенно изменяются от одной предметной области к другой, что снижает эффективность их практического использования.

Второй подход заключается в создании искусственных семантических моделей (глубинно-семантических моделей) как универсальных, так и для определенных предметных областей. Семантическая модель - это необъемная система однозначных и строго структурированных понятий, полученных путем обобщения концептов (понятий) естественного языка или его некоторого подмножества. С семантической моделью ассоциируется формализованная нотация, еще более упрощающая автоматический анализ. В последние десять лет подобный подход получил довольно большое распространение (наиболее ярким примером является язык we^-онтологий OWL). Однако и у него есть существенный недостаток: семантическая модель представляет собой лишь каркас. Для реализации семантического анализа этот каркас должен быть заполнен конкретной информацией, в нашем случае - содержащейся в естественно-языковом документе. Сделать это под силу пока лишь человеку.

Таким образом, оба указанных подхода оказываются малопригодными в контексте анализа юридических документов: первый подход позволяет создавать лишь относительно простые алгоритмы анализа, а второй требует предварительной ручной формализации документа.

35

Второй причиной, препятствующей автоматизации смыслового анализа юридических документов, является - как это не парадоксально звучит - низкий спрос на данную технологию со стороны самих "производителей информации" (в частности, нотариальных контор). Дело в том, что юридические документы как база знаний интересны, главным образом, аналитическим организациям. Нотариальные же конторы к таковым не относятся. То есть в юридическом документообороте имеет место разграничение производства и потребления информации.

Итак, отсутствие прямого спроса, с одной стороны, и слабая развитость технологий семантического анализа, с другой стороны, делают чрезвычайно затруднительным использование большого пласта юридических документов (в частности, в области гражданских правоотношений) как базы знаний. За последние десять лет было предпринято несколько попыток кардинально решить эту проблему, однако широкого распространения они не получили.

Со стороны производителей информации нет спроса на аналитические программные средства, зато они чрезвычайно заинтересованы в программах, ускоряющих собственно процесс создания документов - синтезаторах документов шаблонного типа. Подобные синтезаторы представляют собой гибкие, легко настраиваемые, шаблоны, позволяющие учитывать всевозможные особые ситуации (в этом их принципиальное отличие от механизма форм в Microsoft Word). Кроме того, они интегрированы с базами данных, содержат возможности ускорения ввода текста (расшифровка прописью чисел, склонение ФИО и т.п.). Очевидно, что именно в таких инструментах прежде всего и нуждаются нотариальные конторы. Что мешает нам объединить гибкий шаблон, являющийся, по сути дела, формализованным представлением документа с глубинной семантической моделью документов данного класса? Тогда в процессе синтеза документа возможно автоматическое наполнение модели соответствующей информацией и последующий ее анализ.

При этом эксперт, разбирающийся в данном классе документов, создает шаблон этого класса, его семантическую модель и устанавливает связи между полями шаблона и элементами модели. Следует учесть, что семантическая модель создается не с нуля, а на базе типовой модели. Далее за дело принимается оператор, который заполняет поля шаблона, даже и не подозревая, что автоматически создает смысловое представление документа (наполняет конкретной информацией семантическую модель). Смысловые представления используются аналитиками для реализации семантического анализа (в роли аналитиков могут выступать как сами нотариальные конторы, так и сторонние организации). Поскольку смысловые представления документов хранятся в формальном виде, то не представляет особого труда создать достаточно сложные алгоритмы их анализа с использованием специальных инструментальных средств (XML-анализаторов).

Таким образом, данная технология позволяет избежать использования лингвистического подхода в

процессе смыслового анализа документов и задействует второй подход - применение глубинных семантических моделей. Платой за это становится использование труда эксперта, правда, использование достаточно эффективное, так как шаблоны и семантические модели создаются сразу для целых классов документов и не требуют каждодневного изменения. Кроме того, эксперту предлагается в качестве инструмента типовая семантическая модель.

В качестве типовой семантической модели могут выступать далеко не все известные языки представления знаний. В частности, модель RDF, лежащая в основе упомянутого языка weö-онтологий OWL, является по своей сути хорошо известной в теории искусственного интеллекта семантической сетью, серьезный недостаток которой - статичность смыслового представления. В юридических же документах любого аналитика прежде всего заинтересует ретроспектива некоторых изменений (движение объектов собственности, изменение отношений между людьми и т.п.). Поэтому была предложена смысловая модель документа, нацеленная на моделирование динамической семантики.

В основе семантической модели (Коровин С.Е. Семантико-прагматическая модель документа в нотации XML. http://zhurnal.ape.relarn.ru/articles/2002/ 123.pdf) лежит достаточно очевидная идея: человек представляет окружающий мир в виде объектов, характеризуемых свойствами и отношениями между собой, или, другими словами, своими состояниями. Состояния объектов постоянно изменяются. Существует два способа рассмотрения этих изменений: временной (изменения состояний рассматриваются относительно некоторого эталонного изменения - времени) и причинно-следственный (изменения состояний одних объектов рассматриваются относительно состояний других объектов, с которыми они взаимодействуют). Таким образом, динамическая семантическая модель должна представлять собой описание временной и причинно-следственной составляющих изменения свойств и отношений взаимодействующих между собой объектов.

В модели предложено два способа для описания движения объектов. Первый способ заключается в разбиении процесса изменения свойств и отношений объекта на статические состояния (мгновенные снимки). Ему, например, соответствует математическая модель абстрактный автомат. Второй способ заключается в формировании последовательности переходов (то есть единичных изменений) объекта. Он позволяет более точно и компактно описывать каждое конкретное изменение и по своей сущности напоминает табличное представление функции. Модель в определенной степени напоминает по своей структуре сети Петри, хотя в понятие перехода здесь вкладывается совершенно иной смысл.

Элементами верхнего уровня семантической модели являются временная шкала и объект. При моделировании явления, описываемого в документе, в нем выделяются взаимодействующие объекты, после чего движение каждого объекта описывается отдельно.

36

Временная шкала разбивает моделируемое явление на несколько последовательных интервалов путем введения ключевых моментов. Описание осуществляется либо посредством указания абсолютного времени момента, либо путем его ассоциации с некоторым ключевым событием. Заданные таким образом моменты используются далее при описании временных промежутков конкретных переходов и состояний объектов.

Объект характеризуются своими свойствами, отношениями, и если он является системой - структурными связями (парами вида "объект1-объект2", множество которых позволяет задать структуру системы).

При описании объекта прежде всего задаются статические свойства, отношения и структурные связи (те, которые не изменяются на всем протяжении моделируемого явления; например, наименование объекта). Они размещаются внутри элемента "объект" и не входят в элементы "переход" и "состояние".

Далее осуществляется описание движения объекта. Для этого вводится последовательность переходов (они группируются друг за другом в порядке их возникновения). Каждый переход содержит в себе следующие элементы: "характер", "время", "условие", "причина", "следствие" и набор элементов, которые, собственно подвергаются изменению ("свойство", "отношение", "структурная связь").

Характер описывает сущность изменения: появление, прекращение, изменение, совершение (появление или исчезновение свойства, отношения; изменения значения свойства или роли отношения, совершение действия).

Время ассоциирует данный переход с одним из интервалов временной шкалы. Для этого в него входят такие элементы, как "В_МОМЕНТ", "ДО" и "ПОСЛЕ", значения которых - моменты абсолютного времени или ключевые события. Множество таких элементов определяет конкретный временной интервал данного перехода.

Условие, причина и следствие характеризуют данный переход как элемент некоторой причинно-следственной связи. Эти элементы указывают на переходы, отношения, конкретные элементы переходов (свойства, отношения, структурные связи), которые являются соответственно условиями, причинами и следствиями данного перехода.

Помимо описания движения в виде переходов, модель также поддерживает описание движения в виде совокупности состояний, расположенных в порядке их смены. Этот уровень описания является более абстрактным, чем основной способ, и дополняет его. Он присутствует в модели как минимум в виде пары начальное и конечное состояния. Однако эксперт, формирующий модель, может ввести в нее любое число промежуточных состояний. Каждое состояние содержит описание временного промежутка, в течение которого оно имеет смысл, и всех свойств, отношений и всех структурных связей объекта, которыми он обладает в данном временном промежутке.

Рассмотрим небольшой отчет, полученный в результате выполнения поискового запроса по тесто-

вой базе знаний (анализировалась история купли-продажи конкретной квартиры; все адреса и фамилии заменены на латинские буквы).

Поисковый запрос:

ВЫБРАТЬ ОБЪЕКТ.ИСТОРИЯ (ИМЯ='Квартира' И СВОЙСТВО (ИМЯ='Адрес', ЗНАЧЕНИЕ='*Л*Б*С-0')) Результат выполнения запроса показан в таблице.

Таблица

ИСТОРИЯ ИЗМЕНЕНИЙ ОБЪЕКТА "Квартира":

Всего просмотрено моделей: 50;

Из них в анализ включено: 2

Дата самого раннего документа: 20.09.2001;

Дата самого позднего документа: 23.09.2001

Дата Период Изменение Участники Причина изменения

20.09.2001 В_МОМЕНТ (заключение договора) Объект (объ-ект_действия) подвергся действию "Купля-продажа" Участник X; участник У; нотариус N

ПОСЛЕ (заключение договора); ДО (регистрация договора) Объект (объ-ект_действия) подвергся действию "Передача квартиры" Участник X; участник У Совершение действия "Куп-ля-продажа"

ПОСЛЕ (передача квартиры); ДО (регистрация договора) Объект (объект собственности) изменил характер отношения "Владение квартирой" Участник У Совершение действия "Передача квартиры"

23.09.2001 В_МОМЕНТ (заключение договора) Объект (объ-ект_действия) подвергся действию "Купля-продажа" Участник У; участник Ъ; нотариус N

ПОСЛЕ (заключение договора); ДО (регистрация договора) Объект (объ-ект_действия) подвергся действию "Передача квартиры" Участник У; участник Ъ Совершение действия "Куп-ля-продажа"

ПОСЛЕ (передача квартиры); ДО (регистрация договора) Объект (объект собственности) изменил характер отношения "Владение квартирой" Участник Ъ Совершение действия "Передача квартиры"

Аналитика-практика в этой таблице заинтересуют 3 и 4 колонки, они показывают цепочку движения объекта собственности из рук в руки, зарегистрированную в данной нотариальной конторе. Если же аналитик имеет доступ к базам знаний нескольких нотариальных контор, а еще лучше, всех нотариальных контор, то ему будет доступен автоматический анализ полного движения данного объекта собственности, а также множество иной ценной информации.

В статье мы кратко описали подход, позволяющий реализовывать полноценный семантический анализ документов без использования лингвистических инструментов. Данный подход был апробирован в нескольких нотариальных конторах г. Челябинска и показал свою принципиальную работоспособность. Однако авторам пришлось столкнуться с рядом неожиданных проблем, для решения которых пришлось ввести в язык описания шаблонов конструкции, близкие к операторам структурных языков

37

программирования (конструкции условия и цикла). Также выяснилось, что правильнее создавать не шаблоны документов, а шаблоны стандартных ситуаций, описываемых в них, например: шаблон описания физического или юридического лица, шаблон описания определенного правоотношения и т.д. С одной стороны, это усложняет исходную задачу семантического анализа. Однако, с другой стороны, идя таким путем, мы фактически формализуем се-

мантику предметной области нотариальных документов, выделяем базовые конструкции юридического языка как подмножества естественного языка. Все это сближает глубинную семантическую модель с лингвистическими моделями, что в перспективе позволит существенно повысить эффективность семантического анализа. Возможно, даже удастся анализировать юридические документы в их непосредственном, неформализованном виде.

СИСТЕМА УПРАВЛЕНИЯ РАЗВИТИЕМ РАСПРЕДЕЛЕННЫХ ИЕРАРХИЧЕСКИХ АСУ

Ф.Ф. Филиппов, М.С. Кочеров

Одним из путей повышения эффективности деятельности корпоративных организаций регионального или национального масштаба со сложной иерархической структурой управления является внедрение на них децентрализованных, иерархических автоматизированных систем управления (АСУ). Распределенный характер АСУ позволяет обеспечить:

- эффективную обработку данных на основе локализации процессов с учетом места их обработки и использования;

- повышение качества и достоверности информации в силу заинтересованности конечных пользователей в актуальности информации в базе данных (БД) объекта;

- повышенную надежность функционирования АСУ, обусловленную относительной автономностью отдельных объектов автоматизации;

- поэтапное внедрение и модернизацию АСУ.

Корпоративная организация как сложное общественное образование постоянно адаптируется к изменениям в социальных и экономических отношениях, а также к происходящим внутренним процессам. Изменения целей функционирования на всех уровнях иерархии обусловливает непрерывное развитие и самой организации, и органа управления ею. Данный процесс может носить как глобальный характер, затрагивая всю организацию в целом, так и локальный, воздействуя лишь на отдельные органы управления в иерархии организации. Рассмотрим суть процессов развития объектов автоматизации иерархической АСУ:

- изменение структуры объектов автоматизации происходит в связи с модификацией организационной структуры организации и выражается, например, в возникновении или исчезновении уровней управления, в слиянии, расщеплении или выделении структурных подразделений;

- изменение функциональных характеристик объекта автоматизации заключается в возникновении или сокращении отдельных видов деятельности организации, модификации существующего регламента работы, изменениях в формах отчетности и методах сбора информации, планирования, в принятии решений и контроля.

В пределе АСУ должна охватывать всю вертикаль управления организацией для достижения максимальных показателей своего функционирования. Это означает, что с ростом степени охвата АСУ аппарата управления растет и их совместная зависимость друг от друга и, следовательно, к АСУ предъявляется все больше требований по обеспечению настройки прикладных технологий и информационного обеспечения на происходящие процессы и явления в органе управления. Поэтому АСУ должна создаваться с учетом соблюдения принципа развития. Типовыми технологическими процедурами, составляющими содержание процесса развития АСУ, являются следующие.

• Наращивание системы, заключающееся в подключении новых объектов автоматизации в состав АСУ. Содержание процедуры составляют: обследование и анализ подключаемого объекта автоматизации, установка комплекса технических средств на объекте, установка и настройка функционального и системного программного обеспечения (ПО) на автоматизированных рабочих местах (АРМ), подготовка нормативной и оперативной информации для загрузки в БД объекта, настройка системы защиты информации, налаживание каналов связи с другими объектами.

• Модернизация и наращивание информационных технологий. Процедура заключается в разработке или модернизации ПО предметной области, включение в состав ПО АСУ, выполнение настроек на работу с документами и нормативно-справочной информации (НСИ) БД, назначение прав доступа пользователей, тиражирование и установку ПО на объекты.

• Настройка на актуальное информационное обеспечение (ИО) процессов управления. Суть процедуры заключается в настройке схемы документооборота АСУ, обновления состава и схем представления документов в БД, актуализации НСИ в соответствии с новыми нормативными и корпоративными требованиями.

Выполнение данных процедур требует значительных людских и финансовых ресурсов, а в силу большого территориального охвата и иерархической

38

i Надоели баннеры? Вы всегда можете отключить рекламу.