Научная статья на тему 'Подход к повышению уровня доверия к информации на основе интеграции текстовых и семантических моделей данных'

Подход к повышению уровня доверия к информации на основе интеграции текстовых и семантических моделей данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
292
59
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ТРАСТОВАЯ МЕТРИКА / ДОВЕРИЕ К ИНФОРМАЦИИ / КОРПУС ТЕКСТОВ / ОНТОЛОГИЯ / АННОТИРОВАНИЕ / ИНФОРМАЦИОННАЯ СИСТЕМА / RUST METRICS / TRUST IN INFORMATION / TEXT CORPUS / ONTOLOGY / ANNOTATION / INFORMATION SYSTEM

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Массель Людмила Васильевна, Серый Алексей Сергеевич, Сидорова Елена Анатольевна

Рассматривается задача повышения доверия к информации пользователей информационных систем. Предложена модель знаний, объединяющая текстовое и семантическое представление данных и обеспечивающая связь информации с её источником – документом, из которого она была извлечена. Разработана математическая модель оценки надежности информации по её временным и частотным характеристикам.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Массель Людмила Васильевна, Серый Алексей Сергеевич, Сидорова Елена Анатольевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ENHANCING INFORMATION TRUSTWORTHINESS THROUGH INTEGRATION OF TEXTUAL AND SEMANTIC DATA MODELS

The paper covers some methods of enhancing users’ trust in the information provided by information systems. A model of knowledge that combines textual and semantic data representation is proposed. The model allows to associate the information with its source, which is a text document. A mathematical model estimating information reliability by its time and frequency characteristics has been developed.

Текст научной работы на тему «Подход к повышению уровня доверия к информации на основе интеграции текстовых и семантических моделей данных»

6. Stein C.A. A two-sample test for a linear hypothesis whose power is independent of the variance // The annals of mathematical statistics. 1945. Vol. 16. №. 3. P. 243-258.

7. De Jong K.A. Evolutionary computation a unified approach // A Bradford book. Cambridge: MA, USA. 256 p.

8. Куцый Н.Н., Лукьянов Н.Д. Применение генетического алгоритма для оптимизации автоматических систем с ПИД-регулятором // Вестник Иркутского государственного технического университета. 2012. № 6. С. 6-11.

УДК 004.89

ПОДХОД К ПОВЫШЕНИЮ УРОВНЯ ДОВЕРИЯ К ИНФОРМАЦИИ НА ОСНОВЕ ИНТЕГРАЦИИ ТЕКСТОВЫХ И СЕМАНТИЧЕСКИХ МОДЕЛЕЙ ДАННЫХ

© Л.В. Массель1, А.С. Серый2, Е.А. Сидорова3

1Иркутский государственный технический университет,

664074, Россия, г. Иркутск, ул. Лермонтова, 83.

Институт систем энергетики им. Л.А. Мелентьева СО РАН,

664033, Россия, г. Иркутск, ул. Лермонтова, 130.

23Институт систем информатики им. А.П. Ершова СО РАН,

630090, Россия, г. Новосибирск, пр. Лаврентьева, 6.

Рассматривается задача повышения доверия к информации пользователей информационных систем. Предложена модель знаний, объединяющая текстовое и семантическое представление данных и обеспечивающая связь информации с её источником - документом, из которого она была извлечена. Разработана математическая модель оценки надежности информации по её временным и частотным характеристикам.

Библиогр. 21 назв.

Ключевые слова: трастовая метрика; доверие к информации; корпус текстов; онтология; аннотирование; информационная система.

ENHANCING INFORMATION TRUSTWORTHINESS THROUGH INTEGRATION OF TEXTUAL AND SEMANTIC DATA MODELS

L.V. Massel, A.S. Seryi, E.A. Sidorova

Irkutsk State Technical University,

83 Lermontov St., Irkutsk, 664074, Russia.

L.A. Melentiev Energy Systems Institute SB RAS,

130 Lermontov St., Irkutsk, Russia, 664033.

A.P. Ershov Institute of Informatics Systems,

6 Lavrentiev pr., Novosibirsk, 630090, Russia.

The paper covers some methods of enhancing users' trust in the information provided by information systems. A model of knowledge that combines textual and semantic data representation is proposed. The model allows to associate the information with its source, which is a text document. A mathematical model estimating information reliability by its time and frequency characteristics has been developed.

21 sources.

Key words: trust metrics; trust in information; text corpus; ontology; annotation; information system.

Активная разработка интеллектуальных информационных систем (ИИС) связана с появлением огромного числа доступных веб-сервисов. В последнее время акцент разработки таких систем сместился в сторону структуризации знаний, объединения разнородной информации из разных источников, что это в свою очередь повлекло развитие моделей представления знаний [1-3], разработку новых стандартов и методов управления контентом систем.

Можно выделить два основных типа контента

ИИС. Первый тип представлен массивом неструктурированных текстов. Результатом поискового запроса к такому контенту будет упорядоченный набор текстов, а непосредственно нужную информацию пользователю придется извлекать при прочтении текста самостоятельно. Кроме того, информация, фигурирующая в разных текстах, никак не связана, даже если имеет одинаковые признаки и может быть отождествлена. Второй тип контента - хорошо структурированные на основе какой-либо формальной модели данные. Такая

1Массель Людмила Васильевна, доктор технических наук, профессор кафедры автоматизированных систем ИрГТУ, главный научный сотрудник ИСЭМ СО РАН, тел.: (3952) 500646*405, e-mail: [email protected]

Massel Lyudmila, Doctor of technical sciences, Professor of the Department of Automated Systems of ISTU, Chief Researcher of ESI SB RAS, tel.: (3952) 500646*405, e-mail: [email protected]

2Серый Алексей Сергеевич, младший научный сотрудник, e-mail: [email protected] Seryi Aleksei, Junior Researcher, e-mail: [email protected]

3Сидорова Елена Анатольевна, кандидат физико-математических наук, e-mail: [email protected] Sidorova Elena, Candidate of Physical and Mathematical sciences, e-mail: [email protected]

информация предоставляется пользователю в «чистом» виде и не требует дополнительных усилий по её извлечению. Однако недостатком такого подхода с точки зрения пользователя является вопрос доверия к полученным данным [4, 5].

Во многих информационных системах применяются методы автоматизации пополнения баз знаний, основанные на поиске статей в открытых интернет-ресурсах. Попытки применения методов автоматической обработки текстов (АОТ) и извлечения необходимой для пополнения системы информации сталкиваются с проблемой невозможности обеспечения высокой точности семантического анализа текста. Наилучшие результаты не превышают 80-85%. По умолчанию у пользователя нет веских оснований доверять информации, полученной из неизвестных источников и, возможно, недостоверной, поэтому требуется разработка методов контроля информации, получаемой системой.

В данной работе предлагается два способа повышения доверия пользователя к информации. Первый способ заключается в связывании структурированной информации с её источником - документом, из которого она была извлечена, что позволяет пользователю проверять полученную информацию по источнику. Второй, «консервативный» способ, предлагает отдавать предпочтение проверенным старым фактам и не доверять новым, пока они не наберут необходимого количества подтверждающей информации с достаточным уровнем авторитета.

Оба способа требуют совмещения двух подходов к организации доступа к информации. Первый, основанный на аннотировании корпусов текстов, поддерживает поиск посредством построения конкордансов [6-8]. Второй основан на фактографическом представлении информации на основе онтологии и поддерживает поиск в терминах онтологии в структурированном контенте [3, 9]. Такая интеграция позволит решить ряд задач, связанных с обеспечением достоверности информации, подтверждаемой документальными источниками, и целостности контента информационной системы.

Интегрированная модель данных

Задача совмещения способов представления информации на основе модели предметной области и представления этой же информации в виде текста требует разработки методов представления, хранения и анализа знаний в рамках единой информационной среды, которые позволят:

1) интегрировать структурированные ресурсы и документальные источники в единое информационное пространство, осуществить концентрацию и обобщение накопленных ресурсов и информации по определённой отрасли знаний (например, в энергетике [10, 11]). В рамках предлагаемого подхода представление структурированных ресурсов базируется на описании предметной области в виде онтологии, определяющей основные понятия и отношения рассматриваемой области знаний. Информация, содержащаяся в интегрируемых текстовых ресурсах - документах и корпусах, порождает и дополняет объектную структуру пред-

ставления данных;

2) создавать предпосылки для предоставления содержательного доступа к ресурсам широкому кругу пользователей с возможностью поиска достоверной информации, где достоверность будет подтверждаться документальными источниками. Включение в систему развитых средств анализа и визуализации информации из различных корпусов документов в виде конкорданса, т.е. совокупности контекстов фактов, окажется полезно лингвистам для проведения исследований семантических свойств текста, а также инженерам знаний, которые получат инструментарий для автоматизированного создания лингвистических ресурсов и систем анализа текстов, в том числе для автоматического наполнения информационных систем;

3) поддерживать долговременное функционирование и развитие (жизненный цикл) информационной среды, обеспечивать логическую целостность и достоверность информации.

Под информацией мы понимаем хорошо структурированные данные, соответствующие предметной/проблемной области (ПО) информационной системы. Формальная модель предметной области, заданная в виде онтологии, определяет необходимый формат данных в зависимости от свойств понятий.

Минимальная единица информации - факт [12]. Любой факт может быть представлен в тексте в виде языкового выражения либо набором альтернативных выражений. Таким образом, любой факт может сопровождаться ссылкой на текстовый источник, обеспечивая документальное подтверждение информации, что особенно важно в таких сферах деятельности, как юриспруденция, делопроизводство, научные исследования и т.д.

Для формального описания документально подтверждаемой информации можно выделить следующие компоненты знаний:

< О, I, D, RD >,

где О - онтология предметной области [3], определяющая понятия и отношения, а также их структуру в виде набора атрибутов; I - информационный контент [13] или хранилище информации в виде экземпляров понятий и отношений онтологии О; D - аннотированный корпус, тексты которого являются источниками информации I; RD - отношения между информационным контентом I и корпусом текстов D.

Информационный контент

Современные интеллектуальные информационные системы опираются на формальное описание знаний и той информации, доступ к которым предоставляется конечному пользователю. Структуризация информации и всего контента системы осуществляется с опорой на формальную модель предметной и проблемной областей.

В упрощённом виде (достаточном для целей нашей работы) онтологию можно представить в виде тройки

О = < С, R, At >,

где С - понятия предметной/проблемной области; R - отношения между понятиями; At - набор атрибутов и их свойств, заданный для каждого понятия или отношения.

Тогда информационный контент представляется

как

I = <IO, Val, Fmn>,

где IO - информационные объекты, являющиеся экземплярами понятий или отношений O; Val - множество значений атрибутов; Fmn - факты, связывающие объекты IO и значения их атрибутов Val.

Факт feFmin является минимальной единицей информации, выраженной одним атрибутом объекта .

Аннотированный корпус текстов

Текстовые ресурсы, представленные в информационной системе, группируются в корпуса. Каждый текст снабжается аннотацией, относящейся к контенту текста, и метаинформацией, отражающей его контекст

- «внешние связи» и место в онтологии ИС. Для описания метаинформации каждому тексту сопоставляется информационный объект.

Аннотированный корпус представляется тройкой вида

D = <T, A, S >,

где T - множество документов корпуса (документу сопоставляется текст и ссылка на оригинал документа); A - множество аннотаций (каждая аннотация соответствует одному тексту, а текст может иметь несколько аннотаций или разметок, содержащих различную информацию о данном тексте); S - система признаков для разметки текстов, которая в нашем подходе тесно связана с онтологией (система признаков может быть организована в иерархию и включать признаки отношений для разметки связей, для каждого признака или группы признаков также может быть определена схема визуализации разметки).

В общем виде аннотация представляет собой многоуровневую схему, где каждый уровень представлен аннотацией из A, позволяющую размечать текст по различным основаниям: лингвистическим, предметно-ориентированным или семантическим. Созданием схемы управляет эксперт, который фиксирует функциональность уровня разметки и формирует для него систему признаков, с помощью которых будут размечаться необходимые элементы текста.

Аннотация состоит из множества фрагментов текста (в общем случае разрывных), каждому из которых привязан признак из S. Формально аннотация представляется четвёркой вида

< L, Fr, RFr, TO >, где L - схема уровней в аннотации; Fr - множество

* Существуют и другие факты: факт существования объекта, объединенный факт, отрицание факта. Такие факты возникают в процессе анализа текста.

фрагментов, где каждый фрагмент в явном или неявном виде задает позиции в тексте и признак; RFr -множество связей между фрагментами, означающих, что один фрагмент построен на основании другого (в этом случае позиции совпадают, а признаки различаются); ТО - множество текстовых объектов, формируемых на основе фрагментов, объединённых в единую структуру (в соответствии с типом размечаемых объектов и отношений).

Семантическая аннотация позволяет разметить информационные объекты Ю, связь с которыми осуществляется через специальные структуры - вхождения объекта в текст. С одной стороны, вхождение объекта является текстовым объектом разметки, с другой - соответствует упоминанию информационного объекта в тексте. В тексте может быть несколько вхождений одного и того же объекта с разным набором атрибутов. Множество связей между вхождениями объектов и информационными объектами контента I образуют связующий компонент RD.

Семантическая разметка текстов

Рассмотрим, каким образом подготавливаются и аннотируются тексты в рамках нашей системы.

При создании специализированных корпусов текстов обычно производится лингвистическое аннотирование [14] (морфологическое, синтаксическое), не зависящее от ПО и осуществляемое автоматически и/или вручную. Семантическая разметка, напротив, предметно ориентирована, поскольку определяется онтологией ПО и осуществляется экспертами [15]. Процессу семантической разметки специализированного корпуса текстов предшествует достаточно длительный подготовительный этап совместной работы экспертов, лингвистов и разработчиков системы, в рамках которого происходит обмен компетенциями, выработка и согласование признаков и принципов разметки. Результатом этого этапа является инструкция по семантическому аннотированию. Речь идет о двух видах семантического аннотирования:

1) терминологическая разметка, которая в первую очередь предназначена для фиксации в тексте имен понятий ПО;

2) разметка отношений (или ситуаций, представляющих собой многоместные отношения), в которых размеченные сущности выступают в определённых семантических ролях.

Имеющаяся в нашем распоряжении система разметки [16] позволяет совмещать разные виды семантического аннотирования благодаря универсальному представлению размеченного фрагмента (в общем случае несвязанного). С каждым текстовым фрагментом может быть сопоставлен произвольный набор признаков и нет никаких ограничений на вложение, пересечение, разрывность размечаемых фрагментов. На предварительном этапе работы набор признаков может пополняться и модифицироваться. Семантические признаки формируются иерархически и, как правило, соответствуют понятиям онтологии ПО.

Однако стандартная разметка признаками не дает возможности отразить взаимосвязи (отношение целиком) размеченных сущностей. Отметим, что ситуацию

можно рассматривать как экземпляр понятия или отношения онтологии ПО. Для разметки ситуаций вводятся дополнительные признаки, накладываемые на ранее размеченные фрагменты, которые отражают роль фрагмента в ситуации и связывают его с конкретным экземпляром (вхождением объекта).

Информационная система с интегрированной моделью данных

Практическим воплощением данного подхода должна стать информационная система со смешанной моделью данных, сочетающей информацию, представленную двумя типами данных: тексты на естественном языке и набор формально описанных фактов, упоминаемых в этих текстах. Подтверждением того, что факты заслуживают доверия, здесь служат связи между фактами и их текстовыми источниками: имея факт, можно подобрать множество текстов и указать конкретные цитаты, где он упомянут.

При наличии возможности оценить уровень доверия к тому или иному факту на основе анализа его источников, а также возможности удобного и содержательного доступа к данным такая информационная система будет полезна как аналитикам, так и лицам, принимающим решения. Для долговременного функционирования и развития такой системы необходимо обеспечить поддержание логической целостности и достоверности информации. Целостность контента обеспечивается онтологией, дающей полное и целостное описание предметное области, а также организацией хранилища данных и методов доступа к нему. Накоплению устаревшей и ненадежной информации препятствует специальный механизм, разработанный на основе метода оценки доверия к фактам.

Объединение в рамках одной информационной системы механизмов хранения информации и поиска в терминах онтологии предметной области, а также средств поддержки исследований на основе текстовых материалов, позволяет говорить о ней как об исследовательской информационной системе.

Организация хранения разнородных данных

Контент системы представлен двумя типами данных: сетью информационных объектов и текстовыми источниками. Последние представляют собой фрагменты (цитаты) документов, где непосредственно упоминаются те или иные объекты. Организация хранения такого неоднородного контента является отдельной задачей. Разработанная архитектура системы предусматривает хранение оригиналов документов в отдельном репозитории, тогда как информационные объекты и онтология размещены в реляционной базе данных. Связующим звеном между текстом и знаниями служит аннотация. Ниже приведены основные требования, представляемые нами к базе данных:

1) база данных должна совмещать хранение онтологии предметной области, лингвистической онтологии (системы дополнительных лингвистических признаков для разметки текста) и контента в виде информационных объектов и аннотированных документов;

2) база данных должна обеспечивать хранение настроек визуализации как для отображения информационных объектов, так и для раскраски информа-

ции в тексте;

3) в базе данных должны быть так или иначе представлены документы, имеющиеся в системе, причём тексты документов должны входить в данное представление (текст дополняется ссылкой на оригинал, находящийся в файловой системе), а документы

- снабжаться метаинформацией аналогично представлению информационного объекта;

4) в базе данных должны быть представлены аннотации, обеспечивающие связывание фрагментов текста с информационными объектами;

5) необходимо обеспечить хранение корпусов документов; каждый корпус может иметь свою собственную направленность (по теме и/или жанру) и индивидуальный набор лингвистических признаков для лингвистического аннотирования; корпуса создаются и поддерживаются пользователями-экспертами, обладающими соответствующими правами; права могут раздаваться индивидуально для каждого корпуса;

6) хранение данных о зарегистрированных пользователях: логины, пароли, права доступа и права редактирования.

База данных состоит из пяти концептуальных блоков: онтологии, блока данных (информационных объектов), лингвистического блока, блока аннотаций и блока пользовательских настроек.

Целостность контента и доверие к информации

Задача интеграции структурной и текстовой информации предполагает не только её сбор с помощью ручной разметки текста экспертом или автоматического аннотирования документов какой-либо системой анализа, но и разработку методов и средств контроля поступающей информации. Одними из средств, облегчающих работу с базой данных и рациональное использование компьютерных ресурсов, являются оригинальные методы корректного пополнения базы данных фактами, полученными из текста [17, 18]. Основная идея подхода заключается в трехуровневой проверке информации, поступающей в базу данных.

Доверие к информации

Помимо возможности субъективно оценить достоверность того или иного факта в ходе анализа его источников, пользователю предлагается и численная оценка, называемая трастовой метрикой, также основанная на анализе различных характеристик источников.

В терминах семантической модели данных фактом мы называем минимальное знание об информационном объекте, другими словами, это либо значение атрибута объекта, либо его связь с другим объектом. Трастовая метрика выражает оценку того, до какой степени пользователь может доверять факту, дополняя его собственное впечатление. Для оценки используются приведенные ниже характеристики источников факта и учитывается время его существования в информационной системе.

Пусть Г - некоторый факт, й - /-й документ, упоминающий F. Обозначим экспертную оценку документа й как х' е [-1; 1]. Экспертная оценка характеризует уровень доверия эксперта к информации из

документа й‘ на основании знаний об источнике этого документа и, возможно, какой-то дополнительной информации, которой располагает эксперт. Интервал, в котором находится значение экспертной оценки, соответствуют предельным случаям: полному доверию (X = 1) и полному недоверию (X = -1). Значение

х' = 0 соответствует отсутствию информации об источнике у эксперта. Значения по умолчанию в случае отсутствия экспертной оценки х вычисляются по

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1 N -1

формуле х =----------, где N - количество различных

N

источников, содержащих документ й1.

Введем 8 - характеристику источника й‘, непрерывным образом связанную с экспертной оценкой и выражающую вероятность получения из него достоверного знания:

8 = р

ґх> + О

(1)

Здесь р- среднее отношение допущенных ошибок к общему числу извлечённых фактов. Если значение р нам известно, то используем его в расчетах. В

противном случае считаем р = 1. Если значения X

1 ^

вычислялись по умолчанию, то 8 =щ 1 -

2N

При N = 1 в системе представлен только один источник документа d1 и отсутствует какая-либо информация о его свойствах. Занижение значений 8 по причине неполноты знаний об источниках документов, очевидно, повлияет и на достоверность фактов, в частности, ускорит потерю актуальности. В предельно неблагоприятном случае (при N =1) получим

8 =^ вместо 8 (при N >> 1).

Информация может со временем стать менее актуальной и, соответственно, менее заслуживающей доверия пользователя. Косвенным признаком утери актуальности факта является длительное отсутствие упоминаний факта в новых документах. Введем следующую функцию h(t), зависящую от времени:

1

h(t) =-------т-------г . (2)

1 + ln I — +1 I

[m J

Будем называть h(t) темпоральным множителем. Здесь M - время, за которое значение достоверности понизится в l раз (из формулы (2) следует, что l = 1 + ln2 «1,69). Таким образом, величина t

т = — - это безразмерное время, равное отноше-M

нию времени существования факта в системе ко вре-

мени, необходимому для понижения его достоверности в I раз. Значение М подбирается исходя из оценки экспертом скорости устаревания фактов в данной предметной области.

В основе модели оценки трастовой метрики факта лежит неоднородная цепь Маркова с тремя состояниями {Е, Е2, Е }, определяющими текущий уровень

доверия к факту: «недоверие», «неопределенность» и «доверие» соответственно. Моментами времени процесса считаем поступление очередного подтверждения факта, т.е. нового документа, упоминающего факт. Хи - случайная величина, равная номеру состояния

в момент времени п. Оценкой доверия к факту в момент времени п считается вероятность Р = Р( Хп = 3).

Обозначим через жп вектор-строку распределе-

X

ния случайной величины п. Начальное распределение процесса задается предварительно:

= (^>20^з0); ^ = Р( х0 = /).

После п шагов вектор переходит в

жп = ж° ■ Р(п), где Р(п) = (р (0, п)) - матрица перехода за п шагов, вычисляемая рекуррентно по следующей формуле:

р(»+і) = р(») ■ р(п, п +1), (3)

где Р(п, п +1) - матрица перехода за один шаг (переходная матрица):

(

1 -8n+1 0 8n+1

P(n, n + 1) = 1 -8n+1 0 8n+1

1 - Рзз 1 2 1 - Рзз 2 Рзз J

Рзз = 1

2( Р2з(0, n) + 8n+1)

(4)

Для учета влияния времени существования факта в системе на вектор распределения было построено семейство линейных операторов, обозначаемое Т.

Один из операторов семейства Т применяется к вектору распределения, являющемуся результатом последнего на тот момент шага случайного процесса. Кроме того, этот же вектор, не претерпевший никаких темпоральных изменений, вовлекается в следующий шаг процесса при условии, что факт не устарел и не был исключен из системы за прошедшее время. Как любое линейное преобразование, операторы Т можно записать в виде матрицы:

1

0 1 0 1 - h(t) 0 h(t) Решение об удалении данных

(5)

У

Как было сказано выше, математическая модель оценки трастовых метрик фактов вводится не только как вспомогательный элемент, дополняющий субъективное мнение, которое пользователь может составить на основании анализа источников информации, но и как основа для механизма очистки базы знаний информационной системы от ненадёжных и устаревших данных. Опишем предложенный метод принятия решений об удалении фактов на основании их трастовых метрик.

Очевидно, что множество метрик заданного факта дискретно, так как представляет собой цепочку пар

< > ■

где j - момент времени, к. - досто-

верность в момент времени ] .

Введем минимальный порог для трастовых метрик. Эта определяемая экспериментально величина есть минимально допустимое значение трастовой метрики факта, и пересечение порога сигнализирует о необходимости принять решение: удалить факт сей-

неэффективным. Он позволяет принять решение в случае колебаний достоверности вокруг среднего значения. Непрерывную окрестность можно получить путем интерполяции [19] или аппроксимации [20, 21] дискретного хвоста гладкой кривой. Был проведен анализ различных методов аппроксимации и интерполяции кривыми и по его итогам выбран метод аппроксимации В-сплайном.

Как было указано выше, решение необходимо принять только в отношении тех фактов, для которых текущее значение трастовой метрики меньше минимального порога. Для принятия решения рассмотрим непрерывный хвост длины 4 - аппроксимацию дискретного хвоста, включающего текущее значение и три предыдущих. Такой выбор длины хвоста обусловлен несколькими причинами. Во-первых, тип применяемого сплайна (четвертого порядка без кратных вершин) предполагает минимум четыре опорных точки. Во-вторых, количество возможных хвостов такой длины относительно невелико. В-третьих, вероятность погрешности при оценке четырех идущих подряд значений достаточно мала по сравнению с таковой при оценке единичного значения. Решение принимается на основании анализа поведения хвоста. Хвост может быть строго убывающим, строго возрастающим, либо может не иметь выраженного поведения.

Смысл значений А, В, С

А: В: С:

1. Кривая имеет точку перегиба 2. Кривая не имеет перегибов 1. Кривая возрастает 2. Кривая убывает 3. Кривая возрастает, а затем убывает 4. Кривая убывает, а затем возрастает 5. Кривая убывает, возрастает, затем снова убывает 6. Кривая возрастает, убывает, затем снова возрастает 1. Кривая выпукла вниз в начальной точке 2. Кривая выпукла вверх в начальной точке

час или нет. Самый простой способ принятия решений состоит, возможно, в том, чтобы автоматически удалять все факты, у которых текущее значение трастовой метрики меньше минимального порога. Таким образом, можно хранить только текущие значения трастовых метрик, отбрасывая все предшествующие. Однако такой способ оказался малоэффективным вследствие того, что достоверность факта может опуститься ниже минимально допустимого значения в случае погрешности при оценке, низкого авторитета выбранного источника и других возмущающих факторов. Удаляя факты по такому критерию, можно удалить много нужной и до сих пор актуальной информации.

Для уменьшения степени влияния подобных возмущений необходимо анализировать окрестность текущей точки. Можно выделить два типа окрестностей

- дискретную и непрерывную. Если представить множество точек, описывающее все изменения значений трастовой метрики факта в виде графика, то текущее значение всегда будет крайним справа, соответственно его дискретная окрестность - это совокупность последних точек или хвост графика (в дальнейшем такие окрестности будем именовать хвостами).

Анализ дискретных окрестностей также оказался

Для того чтобы различать кривые по их поведению, введена специальная нумерация. Номер хвоста записывается в виде a.b.c, где a е A = {1,2}; b е B = {1,2,3,4,5,6}; с е C = {1,2}. Смысл значений А, В, С комментируется в таблице.

Согласно такой нумерации кривая с номером, например, 1.2.1 - это кривая, имеющая точку перегиба, выпуклая вниз в некоторой окрестности начальной точки и убывающая на всей области определения. Хотя таким образом можно пронумеровать 24 кривые, всего их 16. Это обусловлено выбранным числом опорных точек и порядком кривой и подтверждено экспериментальной проверкой выборки из ~100 миллионов хвостов, сгенерированных 500 тысячами случайных процессов. Средняя длина процесса - 200 шагов. Для нас интересны в первую очередь кривые вида *.1.* и *.2.*, поскольку они имеют выраженное поведение: строго убывают, либо строго возрастают. Строго убывающая кривая может уничтожить факт, строго возрастающая - предотвратить его удаление. Пусть MIN - минимально допустимый уровень доверия, при котором на факт ещё можно положиться без какой-либо дополнительной проверки; F -некоторый

факт; E = {ej, ej, ej, ej } - у-й хвост соответствующего ему случайного процесса; ej - последние четыре значения достоверности F. Рассмотрим все варианты поведения хвоста.

Пусть ej <MIN; ej<MIN. Это первый граничный случай, при этом факт удаляется, если кривая выражает тенденцию к убыванию, т.е. имеет вид *.2.*. Если кривая имеет какой-либо другой вид, факт остается в системе. Точно таким же образом разрешаются промежуточные случаи, когда

e< < MIN, ej < MIN, ej > MN,

или

ej < Min, ej < Mn, ej < Mn, ej < Mn .

Второй граничный случай наступает, когда

ej <MIN (к = 1,2,3,4) . Все значения находятся

ниже минимального порога. Здесь на первый план выходят кривые вида *1.* Соответственно, если кривая строго возрастает, то факт F все равно не будет удален. Если кривая имеет вид, отличный от указанного, то факт исключается из информационной системы как утративший доверие.

В заключении можно сказать, что основная идея описанного в данной работе подхода состоит в том, чтобы объединить имеющиеся в распоряжении различные модели данных и инструменты для работы с ними, созданные независимо друг от друга, и интегрировать их в общую информационную оболочку, создав

Библиограф

1. Когаловский М.Р. Перспективные технологии информационных систем. М.: ДМК Пресс, 2003. 288 с.

2. Когаловский М.Р. Системы доступа к данным на основе онтологий // Онтологическое моделирование: труды Второго симпозиума (Казань, 11-12 октября 2010 г.). М.: ИПИ Ран, 2011. С. 45-78.

3. Подход к построению предметной онтологии для портала знаний по компьютерной лингвистике / Ю.А. Загорулько,

0.И. Боровикова, И.С. Кононенко, Е.А. Сидорова // Компьютерная лингвистика и интеллектуальные технологии: труды Междунар. конф. «Диалог 2006». М.: Изд-во РГГУ, 2006. С. 148-151.

4. Gil Y., Artz D. Towards content trust of web resources // Web Semantics: Science, Services and Agents on the World Wide Web. 2007. V. 5, Issue 4. P. 227-239.

5. Sabater J., Sierra C. Review on computational trust and reputation models // Artificial intelligence review. 2005. V. 24. Issue

1. P. 33-60.

6. Модель семантического поиска в коллекциях математических документов на основе онтологий / Е.В. Биряльцев, А.М. Елизаров, Н.Г. Жильцов, В.В. Иванов, О.А. Невзорова, С.Д. Соловьев // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: труды XII Все-рос. науч. конф. Казань, 2010. C. 296-300.

7. Blanco X. Using Noo J for Multipurpose analysis of romance languages corpora // Корпусная лингвистика-2008: труды Междунар. науч. конф. СПб., 2008. C. 40-44.

8. Захаров В.П., Богданова С.Ю. Корпусная лингвистика: учебник для студентов гуманитарных вузов. Иркутск: Изд-во ИГЛУ, 2011. 161 с.

9. Загорулько Ю.А., Боровикова О.И. Подход к построению порталов научных знаний // Автометрия. 2008. № 1. Т. 44.

таким образом гибридную информационную систему, где данные представлены как текстовыми корпусами, так и сетевой моделью. При этом становится возможным сохранить привязку фактографической информации к тексту, что позволяет говорить о её достоверности, так как она подтверждена ссылками на текстовые источники.

Ещё одним преимуществом такого подхода является возможность наполнения системы данными путем разметки текстов, что само по себе более естественно для пользователя. Размеченные корпуса при этом можно использовать для обучения систем автоматической обработки текстов.

Используемые структура онтологии предметной области и объектная модель данных применялись при разработке портала знаний по компьютерной лингвистике [9]. Методы семантического аннотирования текстов апробированы при разработке системы аннотирования в рамках проекта по созданию предметного словаря по катализу [14]. В текстах размечались ситуации - описания химических реакций, а также лингвистические отношения (например, анафорические связи).

Работа выполняется при частичной финансовой поддержке грантов РФФИ (№ 12-07-31216 мол_а, № 13-07-00422) и Президиума РАН (интеграционный проект СО РАН № 15/10 «Математические и методологические аспекты интеллектуальных информационных систем»).

ский список

С. 100-110.

10. Массель Л.В. Создание и интеграция интеллектуальных информационных технологий и ресурсов для комплексных исследований в энергетике // Вестник РФФИ. 2012. № 4. С. 74-81.

11. Применение онтологий в исследованиях и поддержке принятия решений в энергетике / Л.В. Массель, Т.Н. Ворожцова, А.Н. Копайгородский, Н.Н. Макагонова, С.К. Скрипкин // Знания - Онтологии - Теория (ЗОНТ-13). Новосибирск: Изд-во ИМ СО РАН, 2013. Т. 2. С. 29-38.

12. Кононенко И.С., Сидорова Е.А. Подход к извлечению фактов из текста на основе онтологии // Компьютерная лингвистика и интеллектуальные технологии: труды Междунар. конф. «Диалог 2009». М.: Изд-во РГГУ, 2009. С. 451-457.

13. Васильев И.А., Тузовский А.Ф. Структура системы управления знаниями // Информационные и системные технологии в индустрии, образовании и науке: труды Междунар. симпозиума. Караганда: Изд-во КарГТУ, 2003. С. 286-289.

14. Синтаксически и семантически аннотированный корпус русского языка: современное состояние и перспективы / Ю.Д. Апресян, И.М. Богуславский, Б.Л. Иомдин [и др.] // Национальный корпус русского языка: 2003 - 2005. М.: Ин-дрик, 2005. С. 193-214.

15. Kim J.D., Ohta T., Tsujii J. Corpus annotation for mining biomedical events from literature // BMC Bioinformatics. 2008. 9:10.

16. Кононенко И.С., Сидорова Е.А. Система семантической разметки корпуса текстов как инструмент извлечения экспертных знаний (на материале текстов по катализу) // Корпусная лингвистика - 2011: труды Междунар. науч. конф. СПб., 2011. С. 193-198.

17. Серый А.С., Сидорова Е.А. Поиск референциальных

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

отношений между информационными объектами в процессе автоматического анализа документов // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: труды XIV Всерос. науч. конф. Переславль-Залесский, 2012. С. 206-212.

18. Серый А.С., Сидорова Е.А. Идентификация объектов в задаче автоматической обработки документов // Компьютерная лингвистика и интеллектуальные технологии: труды Междунар. конф. «Диалог 2011». М.: Изд-во РГГУ, 2011. С.

580-591.

19. Ли К. Основы САПР (САО/САМ/САБ). СПб.: Питер, 2004. 560 с.

20. Роджерс Д.Ф., Адамс Дж. Математические основы машинной графики / пер с англ. М.: Мир, 2001. 604 с.

21. Кокс Д., Литтл Дж., О'Ши Д. Идеалы, многообразия и алгоритмы. Введение в вычислительные аспекты алгебраической геометрии и коммутативной алгебры / пер. с англ. под ред. В.Л. Попова. М.: Мир, 2000. 687 с.

УДК 519.21

«ИНАЯ И ЗАБЫТАЯ» ТЕОРИЯ ВЕРОЯТНОСТЕЙ

© А.В. Петров1

Иркутский государственный технический университет,

664074, Россия, г. Иркутск, ул. Лермонтова, 83.

Рассматриваются проблемы взаимодействия классических вероятностных подходов к изучению окружающих нас явлений и современных формализованных методов описания вероятностного мира. Формулируются вопросы, на которые современная теория вероятностей, основанная на теории множеств и аналитических методах, не может дать ответа.

Библиогр. 17 назв.

Ключевые слова: теория вероятностей; вероятностные характеристики; моменты; случайные процессы; корреляция.

“OTHER AND FORGOTTEN” THEORY OF PROBABILITY A.V. Petrov

Irkutsk State Technical University,

83 Lermontov St., Irkutsk, 664074, Russia.

The article discusses the interaction problems of classical probabilistic approaches to the study of the phenomena surrounding us and modern formalized description methods of a probabilistic world. It formulates the questions that the contemporary theory of probability, based on the theory of sets and analytical methods can give no answer.

17 sources.

Key words: probability theory; probabilistic characteristics; moments; random processes; correlation.

Конец XIX - начало ХХ века ознаменовалось для теории вероятностей выходом целой серии трудов: А.А. Марков, А.А. Чупров, Е.Е. Слуцкий и многие другие выдающиеся ученые пытаются дать теоретиковероятностное описание реальных, физически существующих явлений. Они стремятся придать понятный смысл вероятностным категориям, сопровождают свои рассуждения простыми жизненными примерами.

В известный момент в теории вероятностей и других естественно-научных дисциплинах произошел качественный скачок. Фундаментальные работы А.Н. Колмогорова (монография «Основные понятия теории вероятностей» [2] и статья «Об аналитических методах в теории вероятностей» [3]), по сути, завершили перевод теории вероятностей на другие «рельсы». Если рассматривать теорию вероятностей как математическую науку - это колоссальное достижение. Но с точки зрения практических приложений - несомненное торможение. Стала стремительно теряться культура осмысления сути случайных явлений, ее затмила мощная математическая «символика», приводимые примеры все чаще носят гипотетический характер, а

читателю все труднее подтверждать свое понимание теории вероятностей как прикладной, практически значимой науки. Поэтому теория вероятностей и излагается во многих университетах «независимо от приложений»: «Исчисление вероятностей излагается обычно как чисто математическая дисциплина. Таково оно и есть в своем основном содержании, взятом независимо от приложений» (Слуцкий Е.Е «К вопросу о логических основах исчисления вероятностей» [15]).

Сформулировано и доказано великое множество утверждений и теорем: исследователи, в совершенстве владеющие математическим инструментарием, продолжают накапливать базу теорем, пользуясь терминологией информационных технологий. И автор совершенно далек от мысли, что этого не нужно делать. Несомненно, математика является совершеннейшим инструментом описания окружающего нас мира. Все было бы прекрасно, но, во-первых, остается желание увидеть подтверждение математических результатов на конкретных и совершенно реальных примерах, а не специально сконструированных и потому не всегда полно отражающих действительность.

1Петров Александр Васильевич, доктор технических наук, профессор кафедры автоматизированных систем, тел.: (3952) 405162, e-mail: [email protected]

Petrov Alexander, Doctor of technical sciences, Professor of the Department of Automated systems, tel.: (3952) 405162, e-mail: [email protected]

i Надоели баннеры? Вы всегда можете отключить рекламу.