УДК 002.66 UDC 002.66
ПОДХОДЫ К ОПЕРАТИВНОЙ APPROACHES ТО THE RAPID
ИДЕНТИФИКАЦИИ Ф ОРМАЛИЗОВАННЫХ IDENTIFICATION OF FORMALIZED
ЭЛЕКТРОННЫХ ДОКУМЕНТОВ В АВТОМАТИЗИРОВАННЫХ ДЕЛОПРОИЗВОДСТВАХ
Королев Игорь Дмитриевич д.т.н., профессор
Носенко Сергей Владимирович Филиал Военной академии связи (г. Краснодар), Краснодар, Россия
В данной статье представлен подход к представлению различных видов электронных документов позволяющий создать унифицированный информационно-поисковый тезаурус
Ключевые слова: АВТОМАТИЗИРОВАННЫЕ СИСТЕМЫ ДЕЛОПРОИЗВОДСТВА, ЗОНЫ ДОКУМЕНТА, ПРЕДИКАТА УЗНАВАНИЯ ВИДА ДОКУМЕНТА
При переходе на электронный документооборот становится возможным применение технологий автоматической обработки текстов. На первый план в электронном документообороте выходят: автоматическое концептуальное
индексирование, применение автоматических поисковых запросов, автоматическое рубрицирование и аннотирование отдельных документов их кластеризация. Актуальность работы состоит в том, что предложенный авторами способ позволяет проводить все вышеперечисленные операции с наименьшими временными затратами.
Формализованные документы, использующиеся в официальной переписке и обеспечении внутренней работы организаций, имеют определенную структуру, соответствующую виду документа и исполняются служебно-деловым стилем с соблюдением правил русской орфографии и пунктуации, обеспечивают точное и однозначное восприятие изложенной в нем информации. Применяемые термины должны соответствовать принятой терминологии и употребляться в одном и том же значении.
ELECTRONIC DOCUMENTS IN AUTOMATED RECORDS MANAGEMENT
Korolyov Igor Dmitrievich Dr.Sci.Tech., professor
Nosenko Sergey Vladimirovich Krasnodar branch of Military Academy of communication, Krasnodar, Russia
The article presents different types of electronic documents allowing to create the unique searching-for-information thesaurus
Keywords: AUTOMATION SYSTEMS, ZONE OF DOCUMENT, PREDICATE RECOGNITION OF TYPE OF DOCUMENT
Поскольку язык для составления документов и сопутствующая деятельность, связанная с обеспечением функционирования делопроизводства лежит в области интеллектуальной деятельности человека, анализ сложности моделирования всевозможных видов документов, связанных с используемым в документах естественным языком привели к следующим выводам [1]:
1. Формальный язык документов, как и человеческий язык, явление
дискретное, естественно, они должны описываться средствами дискретной математики. Причем выбор средств указанного типа ограничен: языки
программирования, логические исчисления, языки теории алгоритмов, аппарат теории графов.
2. При анализе применения языков программирования или языков теории алгоритмов пришлось столкнуться со сложностью описания алгоритмов, то есть процедур с однозначным исходом по причине многозначности человеческого языка. Языки программирования и теории алгоритмов - это такие языки, которые могут описывать только однозначные функции.
3. Логические исчисления, а именно: исчисления высказываний и исчисления предикатов не имеют четкой и полной алгебраической системы. Это сделано только в исчислении высказываний. В результате мы имеем алгебру логики и аппарат булевых уравнений, который вызывает неудобство, заключающееся в том, что в алгебре логики используются лишь двоичные знаки, в то время как в естественном языке фигурируют буквенные, то есть многозначные символы.
4. Попытка устранения данного недостатка - обращение к аппарату многозначной логики, но многозначная логика развита только в описании однозначных функций, а не отношений. Развитие же в этом направлении многозначной логики принудительно приводит к алгебре конечных предикатов. Чтобы иметь возможность записывать самые общие уравнения многозначной логики, в правой их части нет необходимости ставить произвольные формулы, достаточно писать константы. Необязательно использовать все константы,
достаточно взять всего два знака: 0 и 1. Но как только мы так поступим, немедленно приходим к понятию конечного предиката, а, следовательно, и к алгебре конечных предикатов.
5. Использование исчисления предикатов для целей математического описания человеческого языка также наталкивается на определенную трудность: исчисление очень слабо развито применительно к нуждам описания конечных объектов. Исчисление предикатов не располагает даже средствами для формульной записи любых индивидуальных конечных отношений. Вместе с тем, человеческий язык - явление сугубо конечное и он требует для своей формализации аппарата конечной математики. Пытаясь алгебраизировать конечный фрагмент исчисления предикатов, мы не сможем прийти ни к чему иному, как только к алгебре конечных предикатов.
6. Обратившись к аппарату теории графов, мы обнаружим, что, хотя он и используется для описания конечных отношений, однако совершенно не содержит в себе выразительных средств для записи этих отношений в виде уравнений некоторой алгебры. Если же мы захотим перевести информацию, содержащуюся в графах, на язык таблиц, то увидим, что с помощью графов выражаются именно конечные предикаты.
Таким образом, какой бы путь мы ни избрали при разработке приемлемых формальных средств для математического описания человеческого языка, мы неизбежно приходим к алгебре конечных предикатов. Вместе с тем установлено, что алгебра конечных предикатов полна [2], то есть на ее языке могут быть описаны любые конечные отношения. Поэтому любой другой математический аппарат, предназначенный для описания произвольных конечных отношений, в логическом смысле обязательно будет равносилен алгебре конечных предикатов.
Важнейшим вопросом для обеспечения оперативной работы автоматизированной системы делопроизводства на первом этапе обработки поступающего документа является извлечение метаданных, позволяющих
максимально повысить оперативность всех последующих внутренних процессов обработки документов в автоматизированном делопроизводстве: для
формализованного представления данных (учет), при выполнении запросов к данным, при работе механизмов обработки запросов.
С целью построения такой модели извлечения метаданных из документов необходимо определиться со всем разнообразием видов документов, определения их зон и списков метаданных, относящихся к той или иной зоне документа для их последующего выделения. Количество различных зон документа может расширяться, но так как количество видов формализованных документов, поступающих в систему конечно, соответственно количество типов зон документов конечно и много меньше количества документов. Примерами зон могут быть: заголовки, текст, списки и графика как содержимое текстов, обращения, зоны согласования и утверждения.
Используем следующий порядок определения вида документа и его зон. На рисунке 1 представлен пример документа, математическое описание вида которого в общем виде выразится конечным предикатом Ь), где V /V/, у2,..., Ут} -множество видов документа, 7=/7, 2,..., т}; т - количество всех используемых видов документов,гп} - множество конечных предикатов известных зон документа, п - количество всех ЗОН документов,/. ///, /?, ... , 1ф - множество конечных предикатов узнавания ключевых слов, ц - количество всех используемых ключевых слов.
ст текст текст текст текст текст текст текст текст текст текст текст Текст текст текст текст текст текст текст текст текст текст текст текст текст текст текст текст текст текст текст текст текст текст текст текст т< Текст текст текст текст I текст текст текст текст текст текст текст текст т< ■ текст текст текст текст ' ^кст текст текст текст '
• тексттекст текст текст '
ш
текст текст текст текст текст екст текст текст тексттекст екст текст текст текст теЦт текст текст текст текст текс екст текст текст текст текст екст текст текст текст текст екст текст текст текст текст екст текст текст текст текст ¿кст текст текст текст текст, екст текст текст текст текст :кст текст текст текст текст $кст текст текст текст текст , кст текст текст текст текс :кст текст текст текст текст жст текст текст текст текст.
Конец
Рис. 1 - Пример документа, поступающего в автоматизированное
делопроизводство.
В представленном примере документа для выделения зон документа используется характеристики содержимого, имеющего единую структуру. Например, в качестве зоны принимается содержимое одного (или большего количества) абзаца однотипно выделенного (курсив, подчеркивание и т.д.), или зона представляет собой содержимое строк, выровненных, например, по краю (правому, левому) или по центру.
Каждую зону возможно представить в виде конечного предиката г,(Т, Ь), где Т -множество конечных предикатов узнавания характеристик текста /, Ь={1/?,..., /ч/
- множество конечных предикатов узнавания ключевых слов, ц - количество всех используемых ключевых слов.
Используя в дальнейшем алгебру конечных предикатов, возможно описание и построение математической модели определения вида документа по характеристикам текста.
Рассмотрим вышеописанные выражения применительно к некоторым видам документов: Приказ, Постановление, Регламент, Положение, Инструкция,
Донесение, Заявление, Договор, Контракт, План, Отчет, Перечень, Протокол, Акт, Справка, Служебное письмо, Заявка.
Введем множество переменных и, Х.2, 1з, и ~ множество характеристик текста -4 переменные с соответствующими алфавитами величиной 3, 4, 4, 3 (Таб. 1). Показателями характеристики текста необходимыми при определении зоны текста являются:
- месторасположение в документе: начало, середина, конец;
Хг - месторасположение на строке: слева, по центру, справа, по ширине;
Ь, - выделение текста: нет, жирным, курсивом, подчеркивание; и - размерность шрифта (можно задать промежутками): 0-10, 11-14, 15-оо.
Таблица 1 - Положение и характеристики зон в документах (пример)
Характеристи ки текста Зона документа г={г}, г2,..., 2п} І4 - месторасполо жение в документе І2 ~ месторасположени е на строке 1з - выделение текста и - размерность шрифта
Переменные 1 2 3 1 2 3 4 1 2 3 4 1 2 3
Угловой штамп + + + + +
Согласование + + + + + + +
Характеристи ки текста Зона документа 2={2Ь 21,..., ^п} ^ - месторасполо жение в документе І2 ~ месторасположени е на строке Із - выделение текста и - размерность шрифта
Переменные 1 2 3 1 2 3 4 1 2 3 4 1 2 3
Утверждение + + + +
Заголовок документа + + + + + +
Адресат + + + + + + +
Содержание + + + + + + + +
Подпись документа + + + + + +
Отметка об исполнителе + + + +
Правило построения предиката узнавания зоны документа по характеристикам текста, выразиться следующей формулой:
771 71
*-(г)=Л\Л*'
/і=1 а-1
+ а +а ь1г
где - предикат узнавания значения аЛ-той переменной текста; т -
количество переменных текста, п - величина алфавита /?-той переменной текста. Выражение предикатов зон документов через переменные текста 1л, іі, із, и.
2уШ ~ ^1^2 С^З
*Сог = (£1 Vt13)(t21 VtI VСІ)Сз ^4;
*ут = СІФзФ
^Сод = Vt! УСІ
^под = ^І)(СІ УЄ|)С|;
7Т = г3гггхг2-^Исп 12^34'
Внешне предиката зон документа различны, но необходима проверка их
уникальность, т.е. однозначность определения зоны в документе, что позволяет нам сделать алгебра конечных предикатов путем приведения наших предикатов к совершенной дизъюнктивной нормальной форме (далее - СДНФ) и проведем анализ используемых в них конституэнт единицы.
— ^1^2 ^3^4 ^1 ^2 ^3 ^*4 ^1^2 ^3^4 М
*ут = Ф1Ф|;
4д = еМ(с|УС1)(г| уф = УГ}СІСІ)(Г| УС|)
= ФЇФЇ УСІС|С|С| VС^¿2 С|
= сї(іі ус|)(г| VII у£|)г42 = (ФІ Vt11tI)(t31t42 vt32t42 у£с|)
= £}с|с1е| УСі с|У^с|с|уф|ф|
2Сод = гЦх\УС})(£| У£| УГ| УГ34)С| = (ф* Уф|)(і3Ч| Уф2 Vф| Уф|)
= ФІФІ У^с2 ФІ УфгФІ УфгФ! Уф|ф£ У^ф|с| УС^С|Г|С|;
4од=^а21У£І)(£31У£І)£42 = аісіуфіхфіусіф = уф!ф|
Исп —
Выявлены повторяющиеся конституэнты единицы:
*-1«-3*-і4-2 *1 «.З *1*.2 7Г 7^* 7^ 7^ 2І"
^1 ^2‘'З ^4 ^1 ^2 ^3 ^4 Сог Сог Ут Ут Адр ЛЧР
в ;
ф|ф|ф|ф| ^Сог^Сог *ЗДгзд 21дР
в ;
^2 ^3 ^4 ^2 £3 Ы Сог Сог Под Под -^Исп Исп
*3,.2*1*2 *3*2*1*2 7Г 7' т-„
^1 ^2 £3 Ы ^2 £3 ^4 Сог Сог Под Под
в , ;
Ф!Ф1Ф!Ф1 21д23д 2Адр 2Адр В
Из полученного анализа конституэнт единицы СДНФ предикатов видно, что однозначно с использованием только текстуальных характеристик определяется
2УШ' ^Сод^УШ’ гСод
(угловой штамп и содержание). Остальные предикаты однозначного определения зоны не дают.
Устранить неоднозначность можно, по крайней мере, двумя способами:
А) Организационно - большей формализацией используемых документов. В представленном случае выявить необходимые ограничения возможно путем удаления повторяющихся конституэнт единицы в предикатах, где их наличие необязательно, в итоге получится:
7Т — *1 *1 *1*1 >у/*1 *1 *2*1.
¿УЩ 12 С3С4 1112 с314'
7Т _ /-1г1/.1/-2 ч/г1г2г1/-2 Ч/Г3/.3/.1Г2.
^Сог — 1 2^3 ^4 ^ С1С2С3С4 VLlt2tЗL4>
7Т _ *1*3*1*2.
Ут — 11 2 1314>
7Т _tlt2r2f2vflt.2flt.3vf.lt2t.2f3.
гХ,р =
2СсД = ФгФ* \ftltititl;
уТ *3*1*2 +2 \ /+-3 *2 *1 *2 \ /*3*2*2*2.
Под — 11 62 13 Ч С1 с2 13 Ч 6112 13 Ч '
7Г = г3/-1!-1#-2-^Исп — 111213с±>
Соответственно новые требования к расположению и характеристикам зон в документах в отличие от Таблицы 1 для однозначного их определения отражены в таблице 2:
Таблица 2 - Новые требования к расположению и характеристикам зон в
документах
Характеристи ки текста ^ - месторасполо жение в документе І2 ~ месторасположени е на строке Із - выделение текста и - размерность шрифта
Зона документа 1={2Ь г2,..., 2п}
Переменные 1 2 3 1 2 3 4 1 2 3 4 1 2 3
Угловой штамп + + + + +
Согласование + + + + +
Утверждение + + + +
Заголовок документа + + + + + +
Адресат + + + + + +
Содержание + + + + + + + +
Подпись документа + + + + + +
Отметка об исполнителе + + + +
т.е. необходимо дополнительно:
запретить располагать в конце документа и справа на строке согласование; адресата в обязательном порядке выделять жирным или подчеркиванием.
Б) Введением дополнительной переменной / - узнавания ключевых слов из множества Ь, которое заранее предусмотрено в предикате зоны описанного выше
г,{Т, Ц.
Зоны «Угловой штамп» и «Содержание» однозначно определяются по переменным текста. Для них нет необходимости вводить переменные Ь.
Таблица 3 - Ключевые слова (пример)
Значения переменных и их номера Зона документа 2 {?}, 22, ...,
1 2 3 4-19 20 21 22 23 24
Согласование +
Утверждение +
Заголовок документа +
Адресат + + +
Подпись документа + +
Отметка об исполнителе + + +
Правило построения предиката узнавания зоны документа по ключевым словам текста, выразятся следующей формулой:
*,(«= у /?,
I I
где - предикат узнавания значения ¿ключевого слова соответствующего /-той зоне.
4,г = ^4, = 1а;*Ь = = *20 V/21 уг22;^од = *21 ^22;*йсп = I1 V/23 V/24;
Из примера видно, что после ввода дополнительной переменной однозначно определились зоны «Согласование», «Утверждение», «Заголовок доку мента», «Отметка об исполнителе» имеющий свой уникальный идентификатор. Пара зон «Адресат» и «Подпись документа» несмотря на наличие двух общих переменных соответственно, также однозначно определены т.к. по переменным характеристик текста общих конституэнт у них не было.
Правило построения предиката узнавания зоны документа, выразиться следующей формулой:
(771 П \
Л\Л‘-\/4 (1)
й=1а=1 }
*.а л.а
где - предикат узнавания значения аЛ-той переменной текста; т -
Ц-Приказ, 5-Постановление, 6-Регламент, 7-Положение, 8-Инструкция, 9-Донесение, 10-Заявление, 11-Договор, 12-Контракт, 13-План, 14-Отчет, 15-Перечень, 16-Протокол, 17-Акт, 18-Справка, 19-Заявка.
количество переменных текста, п - величина алфавита /?-той переменной текста;
І
- предикат узнавания значения ¿ключевого слова соответствующего /-той зоне. Следовательно, система предикатов позволяющая определить набор имеющихся зон документа будет выглядеть следующим образом:
гуш (т,і) = ФКсз
2сог(Т, і) = vt| vtf)tз1t2г2 =
2Ут(г,і) = гіфїф3,
7ЗД(гд) = фКсз1 ^і)0і = фЦіз1
г^Т.І) = СІ(С| V ^ )(Сз Vtз4)t|(^2“ V^21 ^ = Г1(Г| у£|)ф|(г2о vг2l vг22)(
*с0Д(Т.ь) = £? (¿2 ч/£2)(£з1 ч/с| Ч/£| Ч/Ез)с1 = £2(с2
гпод(^Д) = *і(с2 у*і)(*з ^ІЖ*21 х/^22)-
^ИспС^Д) = V/23 V/^4)^
Для определения видов документов проведем анализ их структур по содержащимся в них зонам Таблица 4.
Таблица 4 - Структура построения зон документов (пример)
Зона документа Вид документа
Приказ + + + +
Постановление + + + + +
Регламент + + + + + +
Положение + + + + +
Инструкция + + + + + +
Донесение + + + + + +
Заявление + + + +
Договор + + +
Контракт + + +
План + + + + + +
Отчет + + + + + +
Перечень + + + + + +
Протокол + + +
Акт + + + + +
Справка + + + +
Служебное письмо + + + + +
Зона документа Вид документа
Заявка + + + + + +
Для удобства восприятия структур документа проведем классификацию документов по группам структур и исключим зону документов «содержание», которое присутствует во всех видах документа и определяющей роли не несет Таблица 5.
Для документов с повторяющимися структурами необходимо вводить дополнительные уникальные переменные (например: наименование документа и т.п.).
В общем случае правило построения предиката узнавания вида документа опишем формулой:
і = 1 ,п;г^г = 1,тг;г£ где - предикат узнавания требуемой зоны для 7-того вида
Iе 7е
V ^ с с
документа; - предикат узнавания уникального значения ключевого слова -того
вида документа.
Таблица 5 - Структура используемых зон документов
Зона документа Вид документа Предикат, описывающий структуру документа ч(г, ц
2УШ 2 Под гзд гАдр 2Сог 2ут 2Исп
С однозначно определенной структурой
Приказ + + + гПодгЗДгИсп(гУШ ,У 2Адр У 2 Сот У 2Ут)
Заявление + + + 2ПодгЗДгАдр(2УШ У 2 Сот ^ут 'У 2Исп)
Справка + + + ■гуШ^ПодЯздС^Адр ^Сог ^Ут'УгИсп)
Постановл ение + + + + гУШгПод2ЗДгИсп(2Ддр ' 2 Саг У 2Ут)
Служебно е письмо + + + + ■^УШ-^Под-^Ддр-^ИспС^ЗД ^^Сог У 2Ут)
С повторяющимися структурами
Договор + + *Под*Зд(%Ш ^Лдр У2Сог '"УгУт ^Исл)*“
Контракт + + гПодгЗд(2УШ ''Угдцр УгСог VZyт VZиcп)гl2
Протокол + + 2ПодгЗд(2УШ ^Адр 'У2Сог '"У2ут 'У2Исп)/16
Положени е + + + + гПодгЗД2Ут7Исп(7УШ Х/гАдр Х/гСог)^
Акт + + + + 2 Под2ЗД2Ут7Исп(гУШ 'У7Адр У 2Сог)^ 7
Регламент + + + + + ^Под^Д^Сог^У-г^ИспС^Ш У2Адр)16
Инструкци я + + + + + ^Под^ЗД^Сог^Ут^Исп(.2УШ У2Адр)^
План + + + + + 2ПодгЗД-гСог-гУтгИсп(гУШ ^Адр)*13
Перечень + + + + + ^Под^ЗД^Сог^Ут^Исп С^УШ ^Адр)^
Донесение + + + + + 2УШ2Под2ЗД2ДцргИсп(гСог ^2Ут)^
Отчет + + + + + 2УШ2Под2ЗД2Ащ>2Исп(2Сог У2Ут)^*
Заявка + + + + + •2УШ-гПод-гЗД2Адр'гИсп(-гСог ^Ут)^9
Вид документа однозначно определяет его структуру и поиск метаданных
необходимо производить не по всему телу документа, а только по зоне, которой в соответствие определен набор метаданных, что значительно сократит время их поиска.
Используя данный подход видно, что возможно описание любого вида документа и создание для любой автоматизированной системы своей уникальной базы знаний для автоматического определения вида документа. Выражения (1) и (2) можно называть правилами формирования формализованных баз знаний автоматизированной системы.
Итак, электронный документ, разработанный согласно ГОСТ Р 6.30 - 2003 и ГОСТ Р ИСО 15489-1— 2007, идентифицируется по множеству реквизитов без введения дополнительных метаданных и методов кластеризации документа. Предложенная электронная модель документа позволяет провести кластеризацию с учетом разработанной системы обеспечения безопасности информации в автоматизированных системах.
Список литературы
1. М.Ф. Бондаренко, Ю.П. Шабанов-Кушнаренко. Нормальные формы формул алгебры конечных предикатов [Текст]//Научно-технический журнал «Бионика интеллекта». ХНУРЭ, г. Харьков, Украина - 2011 № 3(77).
2. М.Ф. Бондаренко, Ю.П. Шабанов-Кушнаренко. Об алгебре конечных предикатов. [Текст]// Научно-технический журнал «Бионика интеллекта». ХНУРЭ, г. Харьков, Украина - 2011 № 3(77).
3. В.В. Девятков. Системы искусственного интеллекта: Учеб. Пособие для вузов. - М.: Изд-во МГТУ им. Н.Э. Баумана, 2001.
4. Люгер, Джордж, Ф. Искусственный интеллект: стратегия и методы решения сложных проблем, 4-е издание. Лер. с англ. - М.: Издательский дом «Вильямс», 2003.
References
1. M.F. Bondarenko, Ju.P. Shabanov-Kushnarenko. Normal'nye formy formul algebry konechnyh predikatov [Tekst]//Nauchno-tehnicheskij zhumal «Bionika intellekta». HNURJe, g. Har'kov, Ukraina-2011 №3(77).
2. M.F. Bondarenko, Ju.P. Shabanov-Kushnarenko. Ob algebre konechnyh predikatov. [Tekst]// Nauchno-tehnicheskij zhumal «Bionika intellekta». HNURJe, g. Har'kov, Ukraina - 2011 № 3(77).
3. V.V. Devjatkov. Sistemy iskusstvennogo intellekta: Ucheb. Posobie dlja vuzov. - М.: Izd-vo MGTU im. N.Je. Baumana, 2001.
4. Ljuger, Dzhordzh, F. Iskusstvennyj intellekt: strategija i metody reshenija slozhnyh problem,
4-е izdanie. :Per. s angl. - М.: Izdatel'skij dom «Vil'jams», 2003.