Вероятностно-статистическая модель анализа текста
правового документа
Мячина Е.В. ( [email protected] )
Российская академия государственной службы при Президенте РФ
Несмотря на богатую историю и научный опыт, проблемы порождения, восприятия и лингвистического анализа текста (не обязательно нормативного) не решены окончательно. Их направленность изменяется в онтогенезе научного знания и привлекает внимание различных специалистов: лингвистов, психологов, социологов и т.д. В частности, социально-психологический подход к анализу текстов сложился в результате исследований их социального значения в процессах коммуникации, протекающих в общественной жизни. Психолингвистический - рассматривает механизмы грамматического следования лексических единиц в тексте. Основу последнего составляют исследования психологии и психолингвистики, использующие, по крайней мере, две принципиально различные модели порождения и анализа текста - стохастическую модель языка с конечным числом состояний и трансформационную модель. Но, как отмечает А.А. Леонтьев, ни одна из моделей не доказала своего превосходства. Все существующие опыты лишь указывают, что и данная модель верна, но не доказывают, что только она верна. [1]
Алгоритмические реализации психолингвистического подхода нашли воплощение в различных программно-технических методах. В автоматизированных системах различной целевой направленности успешно работают алгоритмы реализации контекстно-свободных грамматик [2]. Имеют место менее «лингвистичные», но более эффективные в плане практической реализации методы распознавания образов [3]. Весьма оригинальными являются появившиеся в последнее время метод генетических алгоритмов [4,5] и метод автоматического анализа текста на основе ассоциативной семантической сети [6].
В целом же можно отметить, что формально-грамматические методы, направленные на воссоздание сложных правил русского языка постепенно вытесняются методами, в той или иной форме использующими вероятностные оценки. Алгоритмы, рассчитанные на сбор и обработку статистики встречаемости различных синтаксических структур в тексте, в настоящее время считается наиболее практичным в задачах автоматической классификации и интеллектуального поиска в полнотекстовых базах данных, поскольку не требуют привлечения высококвалифицированных специалистов в области лингвистики. Именно такой подход лежит в основе предлагаемой ниже модели анализа нормативного документа, используемой в автоматизированной системе, обеспечивающей качество регионального законотворчества [7].
Формальное описание модели
В свете современных тенденций в психолингвистике пересмотрено понятие «восприятие текста». Теперь оно связано с так называемой «психологией образа» и имеет ряд особенностей.
Первой особенностью нового взгляда на проблему восприятия текста является предметность любого восприятия. Психологами экспериментально доказано, что при чтении воспринимаются не отдельные свойства предметов, описанные лексическими единицами, синтезируемые в образ, а затем относимые к тому или иному предмету, а сам образ предмета как часть предметного мира. Образа предмета нет вне образа других предметов, вне целостности нашего представления о мире.
Второй особенностью является изменяющийся характер образа, обусловленный образом изменяющегося мира. Статичность образа временна и диктуется конкретной задачей на момент чтения, а динамичность постоянна, независима от задачи восприятия текста, хотя пути осуществления этой динамики могут быть различны.
И третьей особенностью является то, что в образе отображены не внешние признаки предметов, а их значение. Иными словами, образы предметов несут в себе их значения, закрепленные в языковых формах, но не с прагматической точки зрения, а с точки зрения социальной природы [8, 9].
Применительно к анализу текста правового документа, в частности, законопроекта эти положения психолингвистики выглядят следующим образом.
Предметность восприятия текста означает воссоздание образа предмета правового регулирования в сознании субъекта коммуникативной деятельности. Этот образ формируется как часть предметной области права, занимающей ту нишу правового пространства, которая требует юридической регламентации. Ее границы определяются предметами ведения Российской Федерации и ее субъектов и предметами совместного ведения. Они составляют основу механизма установления предметного соответствия рассматриваемого законопроекта другим источникам законодательства как части юридической экспертизы правового акта.
Динамический характер образа правового регулирования обусловлен теми явлениями социальной жизни, которые имели место до подготовки законопроекта, и будут иметь место после реализации его основных положений. Они выражены в накопленном правовом опыте и представлены правовыми актами. Анализ законности документа направлен на воссоздание динамики формирования этого правового образа и прогнозирование дальнейших изменений, поскольку развитие общества обязательно приведет к изменению восприятия данного документа и отношения к выраженным в нем положениям.
И последнее. Те социально значимые признаки, которые позволяют идентифицировать предметный образ, закреплены в правовых штампах и клише, правилах и приемах законодательного стиля. Определение их выразительности составляет суть лингвистической экспертизы.
Образное восприятие текста нормативного документа субъектом правовой деятельности можно описать следующим образом (см. рис.1). В результате перцептивного анализа, который носит избирательный эвристический характер, происходит опознание и удержание в оперативной (кратковременной) памяти образов отдельных лингвистических единиц. Далее происходит одновременный (параллельный) процесс выделения в содержании образа-слова значимых для предметной области и ситуации семантических компонентов а>к и синтеза, имеющего также эвристический характер, этих компонентов в некие обобщенные предметные образы Д, которые затем формируют глобальный образ содержания текста Т}, являющийся элементом образа предметной области [1].
ОБРАЗ ПРЕДМЕТНОЙ ОБЛАСТИ
СУБЪЕКТА ПРА~~~ТТ ""
^ \ Tj - ОБРАЗ ТЕКСТА
f T2 \ / В СОЗНАНИИ СУБЪЕКТА
ТЕМООБР АЗУЮЩЕГО
I I
■ j (Oi - ОБРАЗЫ ЗНАЧИМЫХ
; ЯЗЫКОВЫХ ЕДИНИЦ
с х т >—»с » И Т по
Т\\т
\ \ ОБРАЗЫ ЛЕКСИЧЕСКИХ I____\ \ ЕДИНИЦТЕКСТА
Рис.1 Образное восприятие текста правового документа
Экспериментально установленный эвристический характер восприятия текста определяет необходимость использования аппарата теории вероятностей для формального описания модели. При этом ее основной задачей является формирование наиболее вероятного для документа тематического образа Qd: Р(П d, Td) = max P .
Определим основные понятия, используемые при описании. Тематическим образом документа (образом текста в сознании субъекта правовой деятельности) будем считать структурно упорядоченный набор темообразующих понятий, выражающий целевое назначение текста в терминах предметной области.
Под темообразующим понятием (значимой лексической единицей) понимается слово, часть слова или словосочетание, состоящее из двух и более терминов предметной области, включенных в словарь автоматизированной системы. Будем также считать, что те-мообразующий контекст - это законченный смысловой фрагмент текста документа, порождающий не более одной темы. В свою очередь, документ представлен терминологическим портретом, исключающим стоп-слова (предлоги, союзы и т.д.), появление которых обусловлено не учитываемой моделью грамматикой языка.
Определим вероятность формирования тематического образа документа Р(П d ,Td).
Пусть документ D состоит из N тематических контекстов dn, n={1, ..., N}, представленных тематическими образами:
Х={1, ...,Т} - индекс темы;
¡={1, ..., I} - номер темообразующего понятия.
Тогда каждый контекст ^ образован 1п количеством темообразующих понятий. При фиксированном значении темы t , в пределах одного контекста значения 0)i(t) являются
П n (t) = {((t)}, (1)
1, если а, е dn;
" in'
где ((t) = <
10, если ( £ dn
n
независимыми в совокупности, поэтому вероятность формирования тематического образа контекста dn определяется выражением:
P(0 n, tn) = П pfa).
t=const i
n=const
(2)
Тематический образ Qn контекста dn достоверно не известен. Его появление обусловлено наличием и содержанием предыдущего тематического образа, находящегося с ним в ассоциативной связи. Тогда вероятность его появления вычисляется по формуле условной вероятности:
P(Qn, tn ; 0n-U tn-1)
Р(Пn, tn Пn-!, tn-!) =■
_ _ n* n* n-1 ' n-
п , К )
(3)
при условии, что р(Оп, /п) > 0, где
р(О п, 1п; О п-1, /п-1) - вероятность совместной встречаемости двух тематических образов;
р(О п, /п) - вероятность формирования тематического образа контекста.
Если же допустить, что р(О п, 1п) = 0, тогда вероятность совместной встречаемости
двух тематических образов р(Оп, /п; Оп-1,/п-1) тоже равна 0, следовательно, тематические
образы взаимно независимы, что противоречит исходному условию.
Из формулы (3) и предположения, что тематические образы связаны ассоциативной связью, вероятность появления любого тематического образа в одном контексте ^ определяется по формуле Байеса [10]:
Р(О,, г) = Р(О,, г Оп, п) = Р(О7, ; °п, *п 7 7 7 У' Р(Оп, )
n=const
Р(П у, tj) • Р(П n, tn 0 j, tj)
ХР(П у, tj) • Р(П n, t„ 0 j, tj)
(4)
где7 е {1, ...,Т}
при условии: Л Р(О(/)) > 0 и Р(Оп) > 0.
Тогда, появление любого тематического образа документа на упорядоченном множестве темообразующих контекстов (Б = Хdn) зависит от вероятности формирования
n
n
всех входящих в документ тематических образов и определяется:
Лп и Л , Р(О п, tn) = Р(О п, <п О1, /1; О 2, /2;...; О п-1, ^-1),
(5)
где Р(Оп,/п|О1,/1;О2,/2;...;Оп-1,/п-1) - условная вероятность появления тематического образа документа.
При этом, тематический образ 1п, имеющий максимальную вероятность появления Р(О п, 1п) на множестве темообразующих контекстов будет считаться наиболее вероятным для документа Б.
На основании формального описания модели (5) и, из уравнения Колмогорова-Чеп-мена [11], определяющего свойства случайного процесса, вероятность формирования тематического образа документа определяется как условная:
Р(Оп, Хп ) = Р(Оп, /п |Оп-1, /п-1) = X р(Оп+1, /п+10п , /п ) • р(Оп , /п |Оп-1, /п-1)
п
(6)
при истинности следующих выражений: 1. Р(Оп, /п) > 0 - тематический образ сформирован;
2. Xр(Оп,/п) = 1 - сумма вероятностей формирования тематических контекстов в доп
кументе равна 1;
0, если п Ф п +1;
3. Рп п+1 (/, /) =1 - вероятность порождения одного и того же тематиче-
[1, если п = п;
ского образа от следующих друг за другом контекстов равна нулю, и равна единице
в рамках одного контекста.
Выражение (6) с учетом (3) определяется собственной вероятностью формирования тематического образа контекста р(О, /) и силой ассоциативных связей между тематическими образами р(Оп, /п |Оп-1, /п-1). Здесь вероятность перехода есть не что иное, как условная вероятность возникновения п-го тематического образа при наличии предыдущего (за один шаг).
Параметры модели
Определим параметры модели, которые позволят сформировать тематический образ правового документа. Но прежде, отметим особенности текста закона, на примере которого рассмотрим одно из возможных применений модели.
При анализе законов и других нормативных документов необходимо учитывать требования правовой лингвистики. Например, правильнее было бы вычислять условную вероятность р(/|у) с учетом возможно встретившегося не наблюдаемого, но «подразумеваемого» автором некоторого понятия q по формуле р(/|д) • р(^7). Однако, правила правовой
лингвистики требуют использования таких лингвистических конструкций, которые бы обеспечивали однозначное толкование текста. Поэтому в предложенной модели принято следующее ограничение: в темообразующих контекстах нормативного документа не учитываются ассоциативные связи, выраженные неявно.
Еще одной особенностью текста закона является его структура. Закон состоит из отдельной статьи, указывающей на цели, содержательной части и дополнительных - преамбулы и дефинитивной статьи, посвященной описанию используемой в документе терминологии. Понятно, что наличие дефинитивной статьи оправдано в случае высокой специфичности используемой лексики, но не оказывает влияния на формирование тематического образа документа. Для тематического анализа и информативно-целевой интерпретации содержания важно функциональное назначение каждого раздела текста, включая заголовки статей. Следовательно, параметры модели должны содержать коэффициент тематической силы контекста гп.
Дополнительно введем следующие обозначения. Пусть со' - количество темообра-зующих понятий документа, относящихся к Т количеству тем, которые, в свою очередь, представляют Ь - отраслей законодательства. И пусть а>ц означает число темообразующих понятий; XXса = со', /={1, ..., Т}; 1={1, ..., Ь};
I /
Семантический вес темообразующего понятия соа в контексте документа определяет коэффициент тематической силы контекста гп:
qtl = гп са , где
п е {1, 2, 3} - номер контекста, соответствующий целевой статье, заголовку содержательной статьи или содержательной статье.
Пороговым значением, определяющим принадлежность отрасли законодательства предметной составляющей тематического образа, будем считать величину апор:
L T — 2
&„ор = л ZZ(qti -Q) ■ p(qti), где \l=1t=1
(7)
— L T
Q = ZZqtl ■ p(qti) - среднее значение cctl; i=it=1
(q, Л
p(cü) = — - собственная вероятность формирования тематического образа на множест-
W)
ве темообразующих понятий документа.
Из выражения (7) следует, что параметрами модели являются: t - номер темы, l -номер отрасли законодательства; c - частота встречаемости темообразующего понятия в тексте, rn - коэффициент тематической силы контекста.
Классификация закона по отраслям законодательства
Одно из возможных применений предложенной модели - автоматическая классификация закона по отраслям законодательства, рекомендованным Указом Президента РФ [12].
В этом случае процесс анализа, отражающий первую особенность предлагаемой модели, связан с выделением в содержании образа-слова или понятия значимых для предметной области и ситуации, семантических компонентов (понятий) и синтеза их в некую обобщенную предметную составляющую, состоящую из одного или нескольких независимых, логически объединенных, тематических компонентов. Здесь частотные характеристики встречаемости темообразующих понятий являются в совокупности независимыми случайными величинами, такими, что Z Р^ю^) = 1 • Согласно теории вероятностей, мерой от-
г
клонения случайной величины от центра распределения спектра темообразующих понятий является ее среднеквадратичное отклонение. Оно и определяет принадлежность отрасли законодательства предметной составляющей тематического образа документа.
На примере текста закона Тульской области «О начальном профессиональном образовании» № 233-ЗТО от 15 февраля 2001 г. (Текст) покажем выполнение автоматизированной системой поддержки законотворческой деятельности [7] процедуры предметного анализа и классификации, по отраслям законодательства. Классификатор правовых актов, в этом случае, исполняет роль интерпретатора предмета правового регулирования. Он имеет трехуровневую иерархическую структуру - <1, Ы>, где I ={К1, К, Кс} - код записи классификатора, К1 - код отрасли законодательства, К( - код темы, Кс - код тематической составляющей, N - обозначение отрасли.
Первым этапом формирования предметной составляющей тематического образа документа является формирование вектора-описания (дескриптора) документа: Б^) = {^ q(t), р^)}, где t={1, ..., Т} - номер темы в анализируемом документе, соответствующий классификатору отраслей законодательства [12];
I
q(t) = Z гп • ^) - семантический вес темообразующих понятий документа, определяемый
г=1
коэффициентом тематической силы контекста гп и частотой встречаемости понятия coi(t),
где г={1, ..., I} - количество темообразующих понятий, относящихся к одной теме; р^) = q(t)/С - собственная вероятность формирования тематического образа на множестве темообразующих понятий документа; и определение порога значимости по формуле (7).
В таблице 1 представлен вектор описания текста. Последовательность формирования тематических образов на этом этапе не оказывает влияния на результат, поэтому для
удобства пояснения данные таблиц упорядочены по значениям р(г) и г. Для текста получено значение спор=21,659.
Таблица 1
Вектор тематического описания Текста
г 130.010.040 130.010.030 130.010.020 130.010.000 130.030.020 080.060.000
Ф 57 32 22 2 1 7
р(г) 0,3373 0,1893 0,1302 0,01183 0,0059 0,0414
г 080.010.000 080.080.010 080.070.000 080.080.020 080.000.000 080.100.060
ц(г) 5 3 2 1 1 1
р(г) 0,0296 0,0178 0,0118 0,0059 0,0059 0,0059
г 070.080.010 070.010.000 090.000.000 020.030.020 020.010.050 010.140.030
ч(г) 11 1 6 4 3 4
р(г) 0.0651 0,0059 0,0355 0,0237 0,0178 0,0237
г 010.140.030 010.150.010 010.110.000 030.090.080 030.120.120
ч(г) 4 2 1 2 1
р(г) 0,0237 0,01183 0,0059 0,01183 0,0059
Следующим шагом является группировка составляющих по семантическим компонентам полного тематического образа. При этом учитываются следующие правила. 1. Тематическая составляющая является значимой компонентой тематического образа документа, если ее семантический вес превышает или равен суммарному семантическому весу всех прочих составляющих данной отрасли (например, для г = «130.010.040», д(11)
5
= 57, что равно X ) для всех остальных г = «130.ХХХ.ХХХ»).
1=2
2 1 I 1 V-/ V-/ и
. Тема отрасли считается значимой компонентой, если ее семантический вес превышает или равен суммарному семантическому весу каждой тематической составляющей отрасли (например, для г = «080.060.000», = 7, что больше чем суммарный вес для г = «080.010.000», равный 5, и для г = «080.070.000», равный 2).
. Отрасль законодательства считается значимой компонентой, если ее семантический вес превышает или равен суммарному семантическому весу каждой составляющей отрасли или не выполняются условия 1 и 2.
Сформированный таким образом обобщенный тематический образ представлен в таблице 2. Далее вычисляется среднеквадратичное отклонение (7) для каждой темообра-зующей компоненты (значения с(1) таблицы 2).
Решающим правилом для классификации регионального закона является следующее. Компоненты тематического образа документа определяют предмет правового регулирования в том случае, если мера их рассеяния по тексту не меньше среднеквадратичного отклонения от центра распределения спектра темообразующих понятий: ст(/) > спор .
На основании этого правила для текста, взятого в качестве примера, предмет правового регулирования представляют следующие разделы классификатора (табл.2): «Образовательные учреждения и иные образовательные организации», «Бюджеты субъектов Российской Федерации».
Таблица 2
«Тематический образ» Текста
l N(l) o(l)
130.010.040 Образовательные учреждения и иные образовательные организации 26,543
080.060.000 Бюджеты субъектов Российской Федерации 21,927
070.080.010 Социальное обслуживание. Общие положения 17,815
020.030.020 Государственные программы. Концепции 14,955
090.000.000 Хозяйственная деятельность 14,955
030.090.080 Право собственности и другие вещные права на землю и иные природные ресурсы 14,097
010.140.030 Порядок опубликования и вступления в силу нормативных правовых актов 10,353
&пор 21,659
Для сравнения результатов в таблице 3 представлены сведения о том, каким образом данный закон классифицирован в правовых информационных системах, функционирующих на территории Тульской области и содержащих региональное законодательство.
Таблица 3
Классификация по отраслям законодательства закона «О начальном профессиональном образовании» №233-ЗТО от 27.02.2001 г.
Наименование правовой системы Тематика
Банк правовых актов НТЦ «Система» 130.010.040.060 Учреждения начального профессионального образования
«Эталон» 190.000.000.000.000.000 Законодательство об образовании 190.030.000.000.000.000 Образовательные учреждения 190.030.050.000.000.000 Учреждения начального профессионального образования 190.010.000.000.000.000 Общие вопросы образования 090.000.000.000.000.000 Законодательство о финансах и кредите 090.040.000.000.000.000 Государственные расходы РФ, субъектов РФ и расходы местных бюджетов 090.040.050.000.000.000 Финансирование социальной сферы 090.020.000.000.000.000 Основы бюджетного устройства и бюджетного процесса 090.020.020.000.000.000 Бюджеты субъектов РФ 090.020.030.000.000.000 Местный бюджет 090.020.040.000.000.000 Иные виды бюджетов
«Консультант Плюс» «Законодательство о научной деятельности и образовании»
Формирование поискового запроса, содержательно ориентированного относительно законопроекта
Еще одно применение предложенной модели - автоматическое формирование поис-
и 1 и гр и
кового запроса для правовой информационно-справочной системы. Такой запрос обеспечивает подбор электронных копий документов по содержательному критерию и предназначен для содержательной экспертизы правового акта - установления соответствия его
концепции уже существующим механизмам правового регулирования. Здесь отражена вторая особенность модели - динамический характер правового образа.
Если рассматривать нормативный документ как прообраз деятельности, то иерархия мотивов и задач деятельности сводится в тексте к иерархической смысловой структуре, выраженной через тематические образы контекстов. Иерархическую смысловую структуру, состоящую из тематических образов контекстов и построенную относительно «точки отсчета», определяющей целевое назначение документа, будем логико-фактологической структурой.
В процессе чтения документа в сознании субъекта формируется набор взаимозависимых тематических образов различной ассоциативной силы. Он может быть представлен в виде матрицы переходов от одного тематического образа к другому, элементами которой являются вероятности переходов:
Р =
(8)
Р11
Рп1
Рш
Рп
и XРи = 1, где I = 1, 2, ..., п,у = 1, 2,
п.
Каждый вектор матрицы Р определяет одну, предложенную к решению проблему, задачу или подзадачу. При этом вектор-строка указывает на «родительские» отношения логико-фактологической структуры, а вектор-столбец - на «дочерние».
В общем же случае матрица переходов описывает п-мерное векторное пространство и, координатным базисом которого Х1, Х2, ..., Хп являются тематические образы контекстов документа (рис.2а). В нем каждый вектор х описывает способ решения проблемы, представленной тематическим образом Х1 при условиях, выраженных тематическими образами Х1, Х2, ..., Хк, где кеЫ. Он может быть описан через координаты Ы, ..., , относительно системы Хг-:
х ■
(9)
+ ^Х2 + к + ^пХп
ТЫ
1=1
[--'¿А \ №
л* \
/1
пЦ N / / 1
и
А
'к+1 \
а) б)
Рис.2 Содержательная структура текста как прообраз деятельности а) - метрическое представление; б) - пространственное представление целевого вектора [Х]
Реконструируя «деятельностную» сущность нормативного документа, можно сказать, что решение любой из описанных в документе проблем (Т) представляется некото-
рым целевым вектором [Хи связано с решением части других. Факт зависимости от каждой определяется значением координаты £(рис.2б).
Заменив обозначения метрического представления вероятностными, имеем: Ру - £ -вероятность перехода от г -го тематического образа ку-му; Р(Отях, 1С |Ог,)- ^ - условная вероятность появления целевого тематического образа Отах при наличии Оу -го;
Рру(П) - Ху - вероятность совместной встречаемости целевого и ]-го тематического образа.
"Рт(О) ' " Р11 Р12 •• Р1п ' Р(Оmax , Хс О1, ^
Рк 2 (О 2 ) = Р21 Р 22 •• Р2п Р(Оmax , <с О 2, *2)
_Ркп (О п ) _ _ Рп1 Рп2 Р пп Р(Оmax , <с О п , <п )
(10)
В применении к процессу анализа текста нормативного документа выражение (10) можно интерпретировать следующим образом (рис.3). Деятельность, направленная на реализацию цели правового регулирования, представленной тематическим образом с максимальной вероятностью Р(Отах,1С), может быть описана целевым вектором Рк в координатном базисе ее мотивов и задач, выраженных в документе опорными смысловыми узлами 1п.
Отах
Рис.3 Иерархическая смысловая структура текста вероятностное представление целевого вектора
Таким образом, вектор Рк , полученный для тематической компоненты, имеющей наибольшую вероятность появления в тексте, описывает элементы логико-фактологической структуры в вероятностных значениях.
В выражении (10) каждая вектор-строка соответствует выражению (3) формального описания модели и означает вероятность совместного возникновения двух тематических образов. Тогда по правилу совмещения случайных событий:
Рк,(О,) = Р(1г; ^х) = Р(1г П Xтх ) = Р(1г ) • Р(1 _ ) =
Фг) ) Г Ч(Хтх)
V с У V
с
, где
q(t) = X гп • сг (X) - семантический вес темообразующих понятий X темы документа,
г=1
определяемый коэффициентом тематической силы контекста гп и частотой встречаемости понятия сг(X), где ¡={1, ..., I} - количество темообразующих понятий.
Полученные значения вектора Ря описывают элементы логико-фактологической структуры текста, выступающие в качестве поискового запроса при автоматизированном формировании массива правовых актов по содержательному критерию. В таблице 4 представлены элементы логико-фактологической структуры для Текста.
Таблица 4
Элементы логико-фактологической структуры Текста
1 N(1) Рк(1)
130.010.040 Образовательные учреждения и иные образовательные организации 26,543
080.060.000 Бюджеты субъектов Российской Федерации 21,927
070.080.010 Социальное обслуживание. Общие положения 17,815
020.030.020 Государственные программы. Концепции 14,955
090.000.000 Хозяйственная деятельность 14,955
030.090.080 Право собственности и другие вещные права на землю и иные природные ресурсы 14,097
010.140.030 Порядок опубликования и вступления в силу нормативных правовых актов 10,353
&пор 21,659
Подбор документов по содержательному критерию
Основным обстоятельством, определяющим процедуру подбора правовых актов (массива документов), является тот факт, что действия осуществляются над множествами элементов: множеством ассоциативно связанных содержательных компонентов тематического образа документа, с одной стороны, и множеством документов правового пространства с другой, и характеризуются следующими факторами:
1. Массив документов статичен в том смысле, что будет существовать точно определенное дополнение для любого множества документов внутри массива. Массив может изменяться во времени, тем самым, влияя на результат осуществляемых над ним операций.
2. Область полученного фрагмента определяется содержательной структурой анализируемого документа и тождественна смысловому пространству правовых актов, так что смысловые структуры документов правового пространства формируются такими же темообразующими понятиями, какими представлена смысловая структура анализируемого документа. Возможна и обратная ситуация.
3. Темообразующие понятия содержательных структур исходного документа и сформированного массива могут быть взаимно связаны определенными отношениями или, наоборот, взаимно независимы.
Очевидно, что процедура автоматизированного формирования массива правовых актов, содержательно ориентированного относительно анализируемого документа, есть функция отображения его смысловой структуры на документационное правовое пространство, представленное конечным множеством элементов: О=¥(Р) (рис.4). Она определяет собой набор правил (Р^О), ставящих объекту класса Р в соответствие некоторые объекты класса О.
Рис.4 Отображение смысловой структуры законопроекта на документационное правовое пространство
Степень релевантности документов по отношению к информационному запросу устанавливает критерий смыслового соответствия. Он, как известно, определяется человеком и зависит от его индивидуальных особенностей. Формализованным средством, согласно которому в информационно-поисковой системе осуществляется отбор и выдача документов, является критерий формального соответствия или критерий выдачи. Существует три класса критериев формального соответствия: функции, базирующиеся на весах терминов запроса; функции, базирующиеся на весах всех тех терминов, которые встречаются либо в запросе, либо в документе, либо в одном и другом; функции, использующие дополнительно веса терминов, не встречающихся ни в запросе, ни в документе [13].
Для определения критерия соответствия смысловых структур, вернемся к выражению (9), которое описывает смысловой вектор документа в пространстве целевых программ со свойствами £. Очевидно, что для двух идентичных векторов пространства размерности п угол равен 0° и косинус его равен 1, тогда как угол 90° и косинус, равный 0, соответствуют векторам, не имеющим общих свойств.
Расчет коэффициента подобия для данного случая производится по следующей формуле [13]:
Ърг -
грЛ = ■ 11 т где ЛХ (р,)2 -X
V г=1 г=1
pi , ? - ,-е компоненты логико-фактологических структур проекта и документа;
т
X р, - сумма весов свойств документа, включенного в логико-фактологическую
,=1
структуру (й - для проекта соответственно);
т
X (р, - ) - сумма покомпонентных произведений векторов ([ре], выражение 10,
,=1
рис.3);
т2
•Л X ) - длина вектора й ([Ре]) размерности Т.
Процедура формирования фрагмента законодательства сводится на первом этапе к вычислению коэффициента подобия грй. Следующим шагом является упорядочение массива документов по их классификационным признакам в следующей последовательности: по
видам документов (конституции, уставы, законы, постановления и т.д.), по типам органов государственной власти, принимающих правовые акты (Федеральное Собрание, региональные органы власти и т.д.), по правовому статусу документов (действует с изменениями, отменен).
В заключение отметим, что в автоматизированных системах, выполняющих лингвистическую обработку текстов возможны и другие применения предложенной модели -автоматическое реферирование текстов, создание электронных шаблонов различных видов правовых актов и т.д.
Литература
1. Леонтьев А. А. Язык и речевая деятельность в общей и педагогической психологии: Избранные психологические труды. -М.: Моск.психолог.-социал.инс-т, 2001.
2. А.Ахо, Дж.Ульман. Теория синтаксического анализа, перевода и компиляции. Т.1. Синтаксический анализ. -М.: Мир, 1978.
3. D.M.Magerman. Natural Language Parsing as Statistical Pattern Recognition. // A dissertation submitted to the department of computer science at the committee on graduate studies of Stanford University, 1994. // Опубликовано на сервере www.xxx.lang.gov/cmp.lg.
4. R.M.Losee An Introduction to Genetic Algorithms // Information Processing & Management, 33 (3) 1997, -pp. 407-417.
5. R.M.Losee Natural lanquage processing in supportof desision-making: phrases and part of speech tagging // Information Processing & Management, 37(6). 2001 -pp.769-787.
6. Харламов А.А., Ермаков А.Е., Кузнецов Д.М. Технология обработки текстовой информации с опорой на семантическое представление на основе иерархических структур из динамических нейронных сетей, управляемых механизмом внимания // Информационные технологии. - 1998. -№2. -с.26-32.
7. Мячина Е.В. Использование новых информационных технологий для повышения качества регионального законотворчества. //Судебная защита прав и законных интересов граждан и юридических лиц: Доклады и сообщения II Всерос. межвуз. науч.-практич. конф. -М.: РГГУ, 2001. -с.406-410.
8. Леонтьев А.Н. Деятельность. Сознание. Личность. Изд. 2-е. -М.: Политиздат, 1997.
9. Леонтьев А.Н. Образ мира //Избранные псих. произведения. т.П- М., 1983.
10. Климов Г. П. Теория вероятностей и математическая статистика. - М.: Изд-во Моск. Ун-та, 1983.
11. Колмогоров А.Н. Теория вероятностей и математическая статистика: [Сб. статей]. - М.: Наука, 1986.
12. Указ Президента РФ от 15 марта 2000 года № 511 «О классификаторе правовых актов» // Собрание законодательства Российской Федерации, 2000, № 12, ст.1260.
13. Шемакин Ю.И. Основы информатики и вычислительной лингвистики. Учебное пособие. -М.: Изд-е МИНХ им. Г.В.Плеханова, 1983.