Научная статья на тему 'Организация функционирования информационно-аналитических систем органов власти'

Организация функционирования информационно-аналитических систем органов власти Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
158
43
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Бутов А. Л., Миргалеев А. Т., Кошкин Р. П.

В работе представлены результаты иссле-дований по созданию и использованию баз знаний винформационно-аналитических системах органоввласти. Разработана модель базы знаний, отли-чающаяся от существующих тем, что позволяетиспользовать для количественной оценки ситуа-ций естественно-языковые слабоструктурирован-ные данные. Разработано программное обеспече-ние, подтверждающее результаты теоретиче-ских исследований, и определены пути дальнейшихисследований.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Организация функционирования информационно-аналитических систем органов власти»

УДК 681.326

Работа выполнена в рамках ФЦП «Научные и научно-педагогические

кадры инновационной России» (мероприятие 1.1) государственный контракт № 02.740.11.0692

Бутов А.Л., Миргалеев А.Т., Кошкин Р.П.

ОРГАНИЗАЦИЯ ФУНКЦИОНИРОВАНИЯ ИНФОРМАЦИОННО-АНАЛИТИЧЕСКИХ СИСТЕМ ОРГАНОВ ВЛАСТИ

В работе представлены результаты исследований по созданию и использованию баз знаний в информационно-аналитических системах органов власти. Разработана модель базы знаний, отличающаяся от существующих тем, что позволяет использовать для количественной оценки ситуа-

27

ций естественно-языковые слабоструктурированные данные. Разработано программное обеспечение, подтверждающее результаты теоретических исследований, и определены пути дальнейших исследований.

Настоящая работа выполнена в ходе НИР «Разработка методологических основ создания информационно-аналитических систем органов власти субъектов РФ для мониторинга обстановки, прогнозирования возникновения природных и техногенных катастроф, а также ликвидации их последствий» по контракту № 02.740.11.0692.

Одной из задач информационно-аналитических систем (ИАС) в органах власти (ОВ), министерствах и ведомствах является формирование отчетных (аналитических) документов на основе сбора и обработки текстовой информации. Это предполагает реализацию этапов по сбору, предварительной обработке и анализу данных. В работе [1] показано, что эти этапы включают в себя также формирование описаний ситуаций и их оценку. Кроме того, в работе [1] сформулированы требования, предъявляемые к ИАС для бизнес-разведки, и показано, что такие системы предназначены для обработки разнородных слабоструктурированных данных (характеризующихся неполнотой, неточностью, неопределенностью и противоречивостью), включая тексты на естественном языке (ЕЯ), и могут быть использованы в ОВ.

Анализ возможностей существующих ИАС таких, как «Семантический архив», «Галактика Zoom», «Аналитический курьер», «X-Files» и др., показал, что они ориентированы на взаимодействие с оператором, осуществляющим пред- и постобработку информации и не обеспечивают поддержку автоматического, а часто и автоматизированного анализа текстов, извлечения фактов и получения новых знаний.

В связи с этим возникает противоречие между необходимостью реализации поддержки принятия решений аналитическими службами ОВ, обработки больших объемов слабоструктурированной естественно-языковой информации в текстовом виде и отсутствием практических возможностей реализации этого в современных ИАС ОВ.

Показано, что ИАС ОВ должны обеспечивать следующие возможности:

1. мониторинг данных, представленных в текстовом виде в электронных источниках;

2. сбор данных;

3. аналитическую обработку собранных данных и формирование описаний и оценок ситуаций.

28

Под мониторингом в ИАС ОВ понимается наблюдение за состоянием источников информации (сайтов средств массовой информации: новостных, информационных или др.).

Под сбором данных понимается загрузка, фильтрация и автоматическая рубрикация информационных сообщений (документов, видео- и аудиоматериалов с описаниями) из электронных источников, а также погружение в БД ИАС ОВ полученных материалов в виде очищенного от посторонней информации (такой как реклама и гипертекстовые навигационные элементы) текста и его оригинала. Так как такая очистка связана с удалением материалов рекламного характера (а также других посторонних сведений) и для каждого источника данных выполняется различным способом, то сбор данных в ИАС ОВ должен быть основан на их предварительной аналитической обработке.

Под аналитической обработкой данных в ИАС ОВ понимается семантический и контент-анализ собранных данных, а также формирование описания и оценки обстановки определенного пользователем вида в заданной зоне ответственности ОВ (регионе, субъекте, отрасли промышленности, корпорации или др.). Оценка обстановки в ИАС ОВ - это совокупность значений факторов, влияющих на обстановку в рассматриваемой зоне ответственности ОВ, за определенный промежуток времени.

Установлено, что в настоящее время не существует комплексных решений по автоматизации обработки текстовых документов, позволяющих реализовать мониторинг, сбор и аналитическую обработку данных в ИАС ОВ. Поэтому предполагается, что для ИАС ОВ необходимо решение следующих задач:

1. формализация естественно-языковых конструкций запроса;

2. создание распределенных запросов и сбор данных;

3. предварительная обработка текстовых данных;

4. семантический анализ текстовой информации и извлечение фактов;

5. объединение данных из распределенных источников;

6. количественная оценка обстановки.

Важнейшими из указанных задач являются: объединение данных из распределенных источников, семантический анализ текстовой информации и количественная оценка обстановки. Решение этих задач должно быть осуществлено на основе специальной базы знаний. Кроме того показано, что необходимо создание методов извлечения фактов, устранения неопределенности и оценки обстановки и их алгоритмизация. В настоящей работе в рамках создания концептуальной модели ИАС ОВ представлена разработка их модели данных и знаний.

29

В работах [2-6] рассмотрены различные модели представления данных и знаний в информационных и интеллектуальных системах для оценки ситуаций. Установлено, что данные модели не позволяют на их основе выполнять обработку естественно-языковой информации, характеризующейся неполнотой, неточностью, неопределенностью и противоречивостью.

В этой связи разработана следующая модель базы знаний ИАС ОВ:

Kb = (Tes, Rubr, Areas, Sources, Objects, Rb), (1)

где Tes - тезаурус предметной области (описываемой в базе знаний кь), используемый для поиска фраз в текстах на ЕЯ, извлечения фактов из текстовых данных, объединения данных, полученных из различных источников, а также для оценки обстановки;

Rubr - множество правил рубрикации, используемых для классификации собранных текстовых данных, а также удаления материалов рекламного характера и других посторонних сведений;

Areas - множество описаний зон ответственности (например, субъектов РФ, областей) ОВ;

Sources - множество описаний источников данных, используемое при формировании запросов к источникам для сбора текстовых данных;

Objects - множество описаний объектов, в качестве которых выступают организации, персоны, страны, области, города, реки и т.п., выражаемые в тексте именами собственными. Множество объектов Objects используется для определения наиболее важных фрагментов текстов при предварительной обработке текстовых данных и извлечения фактов при аналитической обработке информации;

Rb - множество правил для количественной оценки обстановки.

Еще раз отметим, что одной из задач ИАС ОВ является сбор текстовых данных из различных источников и поиск фраз на ЕЯ в собранных данных. Большинство существующих ИАС осуществляет поиск в текстовых данных путем поиска соответствий лемматизированной поисковой фразы (т.е. фразы, в которой все слова приведены к своим словарным формам) среди лемматизированных текстов на ЕЯ. С использованием данного подхода достигается независимость результатов поиска от форм слов в тексте. Показано, что этот подход не позволяет находить похожие по смыслу, но отличающиеся словарным составом фразы в текстах на ЕЯ.

Предлагается расширить эти возможности за счет введения тезауруса, т.е. словаря специального вида, содержащего семантические отношения между понятиями предметной области, который позволит реализовать в ИАС ОВ поиск фраз с использованием семантических отношений

30

(например, отношений синонимии) между понятиями. В этой связи тезаурус предметной области описывается следующим образом:

Tes = (Terms, Syn, SynWeights, Ant, AntWeights,Hyper,HyperWeights, Omon,OmonWeights), (2)

где Terms —{terml,..., twmn} - множество понятий (объектов, процессов и явлений) предметной области, n - количество понятий предметной области;

syn - отношения синонимии (такое отношение эквивалентности, при котором два понятия различные по написанию обозначают одну сущность предметной области, но могут незначительно отличаться друг от друга, например, эмоциональной окраской) вида «понятие termj является синонимом понятия termi», заданные на понятиях предметной области Terms, i,

j= 1, n i Ф j Syn c Term XTerm ■

synWeights - матрица характеристик отношений в syn,

syn~Weights : Terms xTerms ^ synwe^Mj , здесь synweightj —1, если понятие termj является синонимом понятия term и = о, если понятие termj не яв-

ляется синонимом понятия termi;

Ant - отношения антонимии (такое отношение несовместимости, при котором два понятия обозначают полностью противоположные сущности предметной области) вида «понятие termj является антонимом понятия termi», заданные на понятиях предметной области Terms, i, j= TTn,

i Ф j Ant c Term XTerm ■

AntWeights - матрица характеристик отношений в Ant,

AntWeights : Terms XTerms ^ antweightjj здесь antweightij —1 если понятие termj является антонимом понятия term и antweightij =°, если понятие termj не является антонимом понятия termi;

Hyper - отношения гиперонимии (такое отношение, при котором одно понятие является более общим по сравнению с другим понятием) вида «termi является гиперонимом по отношению к termj» (т.е. termi - это более общее понятие по отношению к понятию termj), заданные на понятиях предметной области Terms , i, j= l7n , i фj , Hyper C Term xTerm ;

HyperWeights - матрица характеристик отношений в Hyper,

HyperWeights : Terms XTerms ^ hyperweighttj здесь hyperweightfj =1 если понятие termt

является гиперонимом по отношению к понятию termj и hyperweightj =°, если понятие termi не является гиперонимом по отношению к понятию

term j ;

Omon - отношения омонимии (такое отношение, при котором понятия одинаковые по написанию обозначают различные сущности) вида «понятие termj является омонимом понятия term », заданные на понятиях предметной области Terms , i, j= im , i ф j, Omon c Term XTerm ;

°m°n Weights - матрица характеристик отношений в Omon,

OmonWeights : Terms XTerms ^ omonweightjj здесь omonweightj =1 если понятие termj

31

является омонимом понятия termi и omonweightj =0, если понятие termj не является омонимом понятия term .

В связи с тем, что при предварительной обработке текстовых данных в ИАС ОВ возникает задача классификации собранных текстовых данных, удаления материалов рекламного характера и других посторонних сведений, предлагается рубрицировать собранные текстовые данные в соответствии с предварительно определенными аналитиком правилами рубрикации: тексты, соответствующие хотя бы одной рубрике подвергаются аналитической обработке, а остальные тексты не учитываются при анализе. Соответствующее описание множества правил рубрикации имеет вид:

Rubr =(Themes,Rules,ThemesRelation,ThemesRelationWeights), (3)

где Themes ={theme!,..., themeP} - множество рубрик, заданных на понятиях предметной области, p - количество рубрик, Themes c Term ;

Rules ={rule1,..., ruiem} - множество правил отнесения текста к рубрикам; m - количество правил;

rulei =и c^termjk - правило отнесения текста к i -й рубрике, задаваемое

как множество вариантов в виде сложных составных понятий £termjk, наличие хотя бы одного из вариантов в тексте характеризует текст, как относящийся к соответствующей рубрике, при этом termjkе Term ;

ThemesReiation - отношения вида «рубрика themei содержит правило rulej », заданные на рубриках Themes и правилах рубрик Rules , i =\7p , j =\Tm

ThemesReiation c Themes XRules ■

? 9

ThemesRelation Weights - матрица характеристик отношений в

ThemesRelation ThemesRelationWeights:Themes XRules ^ themesrelationweightjJ здесь

themesrelationweightij =i, если рубрика themet содержит правило rulej и themesrelationweightij =o, если theme не содержит правило rulej.

Для сбора текстовых данных в ИАС ОВ необходимо формирование запросов к источникам текстовых данных. В связи с тем, что многие электронные источники данных ориентированы на освещение событий различной, но ограниченной тематики в ограниченном количестве регионов, соответствующих некоторым зонам ответственности ОВ, предложено описание множества зон ответственности ОВ в виде (4), а описание множества источников данных - в виде (5).

Areas =(Ar,ArRelation,ArRelationWeights) , (4)

где Ar ={ari,...,arm} - зоны ответственности ОВ, m - количество зон ответственности ОВ, Ar c Term ;

ArRelation - отношения включения вида «зоне ответственности ОВ ari включает в свой состав зону ответственности ОВ arj»,

32

заданные на зонах ответственности ОВ Ar, /, j =т m, i ^j,

ArRelation c Ar XAr ;

ArRelation Weights — матрица ХараКТерИСТИК отношений в ArRelation, ArReiationWeights:Ar xAr ^ arrweightij, здесь arrweightv =1, если зона ответственности ОВ ari включает в свой состав зону ответственности ОВ arj и

arrweightv

если зона ответственности ОВ ari не включает в свой состав

зону ответственности ОВ arj.

Sources =(Src,SrcThemesRelation,SrcThemesWeights,SrcAreasRelation,SrcAreasWeights) , (5)

где Src =(src1,-,srcn} - множество источников данных, n - количество источников данных;

SrcThemesRelation - отношения вида «источник данных srci

потенциально содержит данные, характеризуемые рубрикой themej», заданные на источниках данных Src и рубриках Themes , i =\~n, j =\~p , P — количество рубрик, SrcThemesRelation c Src XThemes ;

SrcThemesWeights — матрица характеристик отношений в SrcThemesRelation,

SrcThemesWeights : Src XThemes ^ srcthemesweightij. здесь srcthemesweightjj =1 если истоЧник данных srci потенциально содержит данные, характеризуемые рубрикой themej и srcthemesweightij =о, если источник данных srci не может содержать данные, характеризуемые рубрикой themej;

SrcAreasRelation - отношения вида «источник данных srci

потенциально содержит данные по зоне ответственности ОВ arj», заданные на источниках данных Src и зонах ответственности ОВ Ar, =1n, j =1m, m - количество зон ответственности ОВ,

SrcAreasRelation c Src xAr ;

SrcAreasWeights — матрица характеристик отношений в SrcAreasRelation,

SrcAreasWeights : Src XAreas ^ srcareasweightij здесь srcareasweightjj =1 если источник

данных srci потенциально содержит данные по зоне ответственности ОВ arj и srcareasweightij =о, если источник данных srci не может содержать данные по зоне ответственности ОВ arj.

Аналитическая обработка информации в ИАС ОВ предполагает сбор фактографической информации об объектах информационного интереса: важнейших объектах народного хозяйства, участниках экономических отношений, руководителях предприятий и организаций и т.п. Предложено следующее описание таких объектов:

Objects = (Obj, SynObj, SynObjRel, SynObjRelWeights,Isa,IsaWeights) (6)

где Obj ={obj'l,•••, objn} — множество объектов, n — количество объектов;

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

SynObj ={synobjl,..., synobj m} — множество названий-синонимов объектов, m — количество названий-синонимов объектов;

о

33

synObjRei ={зуп°ъуге1у} - отношения синонимии вида «объект obJi имеет синонимом название synobjj», заданные на множестве объектов syn и множестве названий-синонимов объектов synObj, synObj Re i с °ъъ x^no^;

synobjReiweights - матрица характеристик отношений в synObjRel,

SynObjRelWeights:Obj xsynObj ^ synobjrelweightj здесь synobjrelw eighty = 1, если объект

obji имеет синонимом название synobjj и syno^^^h^ =о, если объект obji не имеет синонимом название synobjj;

Isa = {isaij} - отношения вида «объект obji является экземпляром понятия termb», заданные на объектах Obj и понятиях предметной области Term, i =hn, j =уГр, p - количество понятий предметной области,

Isa с Obj xTerm ■

isa Weights - матрица характеристик отношений в Isa,

IsaWeights:obj xTerms ^ isaweightij, здесь isaweightij =1, если объект objt является экземпляром понятия termj и isaweightij =0, если объект obji не является экземпляром понятия termj .

Сбор исходных данных для оценки ситуаций в ИАС ОВ предполагает формирование поискового запроса и выполнение распределенного запроса к различным источникам данных. Предполагается, что поисковый запрос - это текст на ЕЯ, составленный аналитиком ИАС ОВ. На основе этого поискового запроса формируется распределенный запрос с учетом синонимов слов и словосочетаний, содержащихся в тексте запроса, а также производится выявление зон ответственности ОВ, которые прямо или косвенно упоминаются в тексте запроса, и определяется тематика данного запроса. Предложена следующая модель распределенного запроса:

n n

FQuery = (j fqueryt = j < NLQueryi, Themest, Areas t >, (7)

i =1 i =1

где FQuery - распределенный запрос, n - количество подзапросов;

NLQueryi - i -й запрос на ЕЯ;

Themesi ={themej} - множество рубрик themej-, соответствующее i -му запросу на ЕЯ, Themesi с Themes;

Areasi ={areaj} - множество зон ответственности ОВ area«, соответствующее i -му запросу на ЕЯ, Areasi с Ar.

При предварительной обработке собранных данных для оценки ситуаций в ИАС ОВ проводится семантический анализ текстовой информации и извлечение фактов, содержащихся в ней. Для автоматизации этого процесса необходимо разработать несколько моделей:

1. Морфологическую модель текста на ЕЯ для обеспечения развитых поисковых возможностей ИАС, включающих поиск с учетом расстояния между словами при поиске целых фраз и независимость результатов поиска от формы употребления слова в тексте. В морфологической моде-

34

ли текста в явном виде не представлена структура синтаксиса ЕЯ, но информация о синтаксисе должна быть использована для определения частей речи и их атрибутов (рода, падежа), поскольку простая операция приведения каждого слова исходного текста к его словарной форме по отдельности, реализованная, например, в программном продукте «Yandex.Mystem», часто не обеспечивает однозначного распознавания частей речи и атрибутов слов.

2. Модель факта, содержащегося в различных фрагментах текста на ЕЯ. Факт - это отдельное (единичное) высказывание относительно сущности (сущностей), содержащихся в тексте на ЕЯ.

3. Модель текста на ЕЯ как совокупности содержащихся в нем фактов, позволяющую представить в структурированном виде смысл одного или нескольких текстов в целом.

В этой связи:

1. Предложена следующая морфологическая модель текста на ЕЯ, учитывающая ориентацию ИАС ОВ на обработку текстов на русском языке:

О Text ={ParJj О раг, =jOJferijjj

О f =^Gramjtl[

О Grnml]t ={Wordl]lplp , (8)

lWord,itp ={ < > A,

ОMorph],,, ^artikpJortikpu.Cdseikp, >

где Pari - i -й абзац текста, i - количество абзацев текста, при этом множество абзацев в тексте считается упорядоченным;

Offer] - ] -е предложение i -го абзаца текста, J - количество предложений в i -м абзаце, при этом множество предложений в абзаце считается упорядоченным;

Gram]k - к -е составное слово ]-го предложения, K - количество составных слов в ] -м предложении, при этом множество составных слов в предложении считается упорядоченным;

Word]kp - p -е слово i]k -го составного слова, P - количество простых слов в составном слове, при этом множество простых слов в составном слове считается упорядоченным;

35

Lemmavkpu - и -я возможная лемма (словарная форма) слова, и - количество возможных лемм данного слова (если у Wordjkp отсутствуют омонимы, то и =1);

MorPhijkpu - и -й набор морфологических признаков слова, соответствующих и -й возможной лемме, состоящий из части речи Part (существительное, глагол, прилагательное, наречие, местоимение, предлог, союз, частица), рода Sort (мужской, женский, средний) и падежа Case (именительный, родительный, винительный, дательный, творительный и предложный).

2. Предложена модель факта, извлеченного из текста на ЕЯ, в виде фрейма следующей структуры:

fact =<subj,pred,obj >, (9)

где subj - слот, содержащий субъект(ы) факта, являющийся активным участником действия (в таблице 1 приведено описание подстановочных элементов), например, subj ={namex U noun и (noun n noun) u (noun n adj)} ;

Pred - слот, содержащий предикат, выражающий семантическое отношение между субъектом и объектом, pred е Term, например,

pred =verb U (verb n adj) •

obj - слот, содержащий объект(ы) факта, являющийся пассивным участником действия, например, obj ={name2 unoun2 u (noun2 nnoun2) u(noun2 nadj)}, или значение свойства факта, например, obj = prepos n (name u noun u (noun n adj))

или obj = prepos n (time u adv)

Таблица 1. Описание подстановочных элементов для слотов фрейма

Элемент Значение

name1 имя собственное в именительном падеже

name2 имя собственное в любом падеже, кроме именительного

noun1 существительное в именительном падеже

noun2 существительное в любом падеже, кроме именительного

verb глагол

adj прилагательное

adv наречие

prepos предлог

3. Совокупность связанных по слотам subj или obj экземпляров фреймов вида (9), построенных на основе одного или нескольких текстов, образует описание текста (текстов) на ЕЯ в виде семантической сети. Далее такое описание одного или нескольких текстов будем называть частной ситуацией. Предложена следующая модель текста на ЕЯ:

36

Ps =(Obj,Pred, Values) (10)

где ObJ ={obj y,..., °bjn} - множество объектов, являющихся узлами семантической сети, n - количество объектов;

Pred - отношения вида «субъект obb\ инициировал действие по отношению к объекту objj» или «объект obji имеет свойство со значением objj » (время t описываемого события является свойством), заданные на объектах Obj, « j =1n, i фj, Pr ed c obj ^obj;

Values - характеристика отношения Pred , Values : Obj XObj ^ predvalueij, здесь objt инициировал действие predvaluej с объектом objj» или «объект objt имеет свойство predvaluev со значением objj».

С целью поиска возможностей автоматизированной оценки ситуаций в ИАС ОВ рассмотрены различные модели для оценки ситуаций в работах [6, 7]. Показано, что эти модели не позволяют использовать для оценки ситуаций текстовые данные на ЕЯ. На основе модели для оценки ситуаций, рассмотренной в [6], предложена модель базы правил для оценки ситуаций в ИАС ОВ на основе текстовых данных на ЕЯ:

Rb =(Concepts,Causal,Weights,Values,PS,PSRelation,PSWeights,

PSValues, C orrect) , ( )

где Concepts ={concePt1,..., conceptn} - концепты (понятия), описывающие измеримые сущности (количественное или качественное состояние объекта, процесса или явления) предметной области, n - количество концептов;

Causal - причинно-следственные отношения вида «если conceptt, то conceptj», заданные на концептах Concepts, и j =Cn, i ф j,

Causal c Concepts XConcepts •

Weights - матрица весов отношений в Causal, Weights: Concepts xConcepts ^ weightij, здесь weightij - степень (вес) влияния концепта concepti на концепт conceptj, weightiJ е [- i;i]. При этом, если концепт concepti не влияет на conceptj, то weightj =0. Если увеличение (усиление) concepti приводит к увеличению (усилению) conceptj, то weightj е (0;1]. Если уменьшение (ослабление) conceptt приводит к увеличению (усилению)

conceptj то weighty е [- 1;0) ;

Values - множество значений концептов из C°ncepts,

Values: concepti ^ vaiuei, здесь valuei - значение концепта concept,

value =[(value])]T, iе [1, n] - вектор значений концептов;

Correct - отношение value\ ^ value]+l, обеспечивающее корректировку значений valuei концептов conceptt с учетом времени t;

PS ={psl,..., psm} - образы частных ситуаций в соответствии с (10), предназначенные для поиска фактов в ИАС ОВ, m - количество образов частных ситуаций;

37

PSRelation - причинно-следственные отношения вида «если psi, то conceptj», заданные на образах частных ситуаций ps и концептах Concepts,

i = 1 m j =1 n PSRelation c= PS xConcepts •

? ? ?

pSWeights - матрица весов отношений в PS Re lations,

psweights: ps XIConcepts ^ ps’weightij, здесь psweightv - степень (вес) влияния образа частной ситуации psi на концепт conceptj, psweighttJ е[- и]. при этом, если образ частной ситуации psi не влияет на conceptj, то psweightv =0. Если увеличение (усиление) psi приводит к увеличению (усилению) conceptj, то psweight^ е (0;1]. Если уменьшение (ослабление) psi приводит к увеличению (усилению) conceptj, то psweightj е [-1;0);

psvaiues - вектор, состоящий из элементов psvaluett, которые называются внешними значениями образов частных ситуаций psi , то есть данными о количественном значении i -й частной ситуации, вычисленном на основе анализа фактов в ИАС ОВ в момент времени t.

Для обеспечения создания концептуальной модели на базе разработанных моделей знаний необходима разработка структурнофункциональной организации (СФО) ИАС ОВ. Проведен анализ путей построения ИАС, его результаты приведены в [8] для ИАС бизнес-разведки. В этой же работе показано, что существующие подходы не могут быть прямо использованы, поскольку не позволяют формализовать естественно-языковые текстовые данные, полученные из распределенных источников, и не позволяет производить количественную оценку обстановки на основе этих данных. Модифицируем СФО ИАС бизнес-разведки применительно к информационно-аналитическим службам ОВ (рис. 1).

Рассмотрим основные модули предложенной ИАС ОВ. Важнейшим элементом ИАС ОВ является база знаний и фактов, состоящая из базы знаний, построенной в соответствии с (1), и базы фактов, хранящей оригинальные тексты на ЕЯ и множество извлеченных фактов, каждый из которых представлен как (9).

38

Веб-сайты в сети Интернет

----ST

Метаданные

БД

Хранилища

текстовых

данных

Уровень хранения данных

Специализированные базы данных

данные

данные

данные

запросы

запросы

запросы

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Сервисы веб-сайтов и поисковых систем в сети Интернет

Сервисы хранилищ данных и систем полнотекстового поиска

распределенный запрос

Сервисы обработки запросов к

специализированным базам данных

тексты на ЕЯ

Уровень предоставления информации о данных и

получения данных

Интерпретатор Модуль оценки

запросов к релевантности и

соответствующим исключения

сервисам нерелевантных данных

Уровень обработки данных и извлечения информации

запросы на ЕЯ^

запрос на ЕЯ

А к ситуации Модуль

количественной

знания оценки обстановки

со значениями

Модуль

редактирования базы знаний

Система

индикаторов

Уровень обработки информации

Рис. 1 - Структурно-функциональная организация информационноаналитической системы органов власти

39

Модуль формализации запросов анализирует естественноязыковой запрос аналитика ИАС ОВ и формирует распределенный запрос вида (7).

Модуль оценки релевантности и исключения нерелевантных данных осуществляет фильтрацию и рубрикацию всей собранной информации на основе множества правил рубрикации (3).

Модуль поиска наиболее значимых фрагментов текста осуществляет графематический, синтаксический и морфологический разбор текстов на ЕЯ, формируя морфологическую структуру текста вида (8), выделяет объекты информационного интереса, используя при этом модель (6), и передает текстовые фрагменты, содержащие объекты информационного интереса, модулю извлечения фактов из текста.

Модуль извлечения фактов из текста осуществляет поиск текстовых конструкций вида (9).

Модуль объединения фактов, полученных из различных текстов и источников данных, формирует смысловое описание частных ситуаций в соответствии с (10).

Модуль количественной оценки обстановки осуществляет логический вывод на основе данных в виде (10) в соответствии с базой правил оценки ситуаций (11).

На основе предложенной модели базы знаний и СФО ИАС ОВ разработан модуль формирования и редактирования базы знаний, сохраняющий знания в виде базы данных Microsoft SQL Server 2008. На рис. 2 представлена инфологическая модель такой базы данных (в таблице 2 представлено отображение основных фрагментов базы знаний в таблицы реляционной базы данных).

Особенностями ее реализации в ИАС ОВ являются:

1. хранение знаний в реляционной базе данных;

2. хранение понятий предметной области в полях типа «символьные данные переменной длины»;

3. хранение весов связей в полях типа «число с плавающей точкой двойной точности»;

4. хранение отношения гиперонимии и отношения между зонами ответственности ОВ с переменным числом уровней иерархии в нескольких таблицах.

40

Рис. 2 - Инфологическая модель базы данных информационно-аналитической системы органов власти

41

Таблица 2. Отображение основных фрагментов базы знаний в таблицы реляционной базы данных ___________________________

Фрагмент базы знаний Реализация в таблицах инфологической модели

Тезаурус, формируемый в соответствии с формулой (2) Terms, TermsSyns, TermsAnts, TermsHypers, TermsOmons

Рубрикатор, формируемый в соответствии с формулой (3) Themes, ThemesConds

Описание зон ответственности ОВ, формируемое в соответствии с формулой (4) Areas

Описание источников данных, формируемое в соответствии с формулой (5) Sources

Описание объектов, формируемое в соответствии с формулой (6) Objects, ObjectsSyns

Правила для оценки ситуаций, формируемые в соответствии с формулой (11) Concepts, ConceptsLinks

На рисунке 3 приведено окно интерфейса модуля редактирования базы знаний с загруженной базой правил для оценки социально-политической обстановки в регионах Российской Федерации в соответствии с (11). На рисунке 4 приведено окно интерфейса модуля редактирования базы знаний с загруженными правилами рубрикации в соответствии с (3).

Таким образом, разработана концептуальная модель ИАС ОВ, включающая в себя:

- модель базы знаний ИАС ОВ;

- СФО ИАС ОВ;

- инфологическую модель базы данных ИАС ОВ.

Практическая реализация ИАС ОВ, реализованная на основе разработанной модели, позволит производить автоматическое извлечение фактов из текстовых данных, автоматически формировать оценку (описание) ситуаций и на основе этого автоматически строить аналитические документы.

Новизна предложенной модели состоит в обеспечении возможности в ИАС ОВ:

- автоматического/автоматизированного извлечения фактов из текстовых данных;

- автоматического/автоматизированного описания ситуаций;

42

- автоматического/автоматизированного построения аналитических документов, определенных пользователем.

Установлено, что практическая реализация разработанной концептуальной модели требует разработки метода извлечения фактов из текстов на ЕЯ, метода объединения фактов и метода оценки обстановки и их алгоритмизации в ИАС ОВ.

В работе представлены результаты исследований по созданию и использованию баз знаний в ИАС ОВ. Разработана модель базы знаний, отличающаяся от существующих тем, что позволяет использовать для количественной оценки ситуаций естественно-языковые слабоструктурированные данные. Разработано программное обеспечение, подтверждающее результаты теоретических исследований, и определены пути дальнейших исследований.

Рис. 3 - Окно интерфейса модуля редактирования базы знаний с загруженной базой правил для оценки социально-политической обстановки в регионах Российской Федерации

43

Б Модуль редактирования базы знаний - [базовая модель] 1^^ Щ ggg

Файл Правка Вид Экспорт - ^^1

1 База правил для оценки ситуаций Рубрикатор 1

1 I-. ^ |1

■ г гуорики 1 |- 1 фЗБИЛЗ ) III

О Рубрики

Административно-территориальное деление Внешняя политика

Внутренняя политика

Военная промышленность

Вооруженные силы

Государственная символика и карта

Государственное устройство

Государственные нормативные акты

Здравоохранение

История

Культура

Меньшинства

Население

Политические партии и общественные организации

Природно-климатические условия

Религия

СМИ

Территориальные споры Экономика и инфраструктура страны

"внутренняя политика" "социальная сфера" "социальная проблема" "борьба за власть" "выборы президента" "президентские выборы" выборы парламент

"парламентские выборы" "выборы депутата" партии

правительство "уменьшение безработицы" "рост доходов населения" "социальные выплаты" пенсии

"режим работы" забастовки

"противодействие власти" население

Рис. 4 - Окно интерфейса модуля редактирования базы знаний с загруженными правилами рубрикации

Библиографический список

1. Бутов А.Л., Кониченко А.В. Организация информационно-аналитической работы в органах власти.

2. Гаврилова Т.А. Хорошевский В.Ф. Базы знаний интеллектуальных систем, СПб.: Питер, 2000 г., 384 с.

3. Джексон П. Введение в экспертные системы — 3-е изд. — М.: «Вильямс», 2001. — 624 с.

4. Джарратано Дж., Райли Г. «Экспертные системы: принципы разработки и программирование»: Пер. с англ. — М.: Издательский дом «Вильямс», 2006. — 1152 с.

5. Поспелов Д.А. Ситуационное управление: Теория и практика.-М.: Наука.- Гл. ред. физ.-мат. лит., 1986.-288 с.

6. Миргалеев А.Т. Метод формирования распределенных онтологий в многоагентных системах поддержки принятия решений органов вла-

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

44

сти субъектов России. Диссертация на соискание ученой степени кандидата технических наук. Курск, 2005, 135 с.

7. Smarandache, F. Fuzzy Cognitive Maps and Neutrosophic Cognitive Maps. Univ. of New Mexico. Gallup, 2002.

8. Бутов А.Л., Кониченко А.В., Кошкин Р.П., Сизов А.С. Структурно-функциональная организация информационноаналитической системы органов власти.

i Надоели баннеры? Вы всегда можете отключить рекламу.