Семантический вероятностный вывод предсказаний

Витяев Евгений Евгеньевич

Онлайн-доступ к журналу: http://mathizv.isu.ru

Серия «Математика»

2017. Т. 21. С. 33-50

УДК 004.85, 519.68 MSG 68Т27, 68Q87

DOI https://doi.org/10.26516/1997-7670.2017.21.33

СЕМАНТИЧЕСКИЙ ВЕРОЯТНОСТНЫЙ ВЫВОД ПРЕДСКАЗАНИЙ *

Е. Е. Витяев

Институт математики им. С. Л. Соболева

Аннотация. Предсказание является одним из важнейших понятий в науке. Предсказания, получаемые на основе вероятностных знаний, описываются индуктивно-статистическим выводом I-S-выводом (Inductive-Statistical inference). Однако такой вывод сталкивается с проблемой синтеза логики и вероятности, состоящей в том, что оценки вероятности высказываний резко падают в процессе логического вывода. Рассматриваемые в рамках Probabilistic Logic Programming процедуры вычисления оценок не решают проблему. С нашей точки зрения, предсказание нельзя соединять с логическим выводом. Логический вывод следует заменить на вычисление. В работе предлагается семантический подход к вычислению предсказаний, когда вывод рассматривается не как проверка истинности запроса на модели, а как поиск фактов в модели, предсказывающих интересующее нас высказывание с максимальной вероятностью. Для этого в работе определяется семантический вероятностный вывод, осуществляющий вычисление предсказаний. В процессе семантического вероятностного вывода оценки предсказаний строго возрастают. В работе доказывается, что получаемые семантическим вероятностным выводом оценки предсказаний заведомо не хуже оценок, получаемых в рамках Probabilistic Logic Programming логическим выводом с параллельным вычислением этих оценок.

Ключевые слова: предсказание, вероятностный вывод, семантика, логические программы, probabilistic logic programming.

Для создания баз знаний используются методы машинного обучения (Mashine Learning) и экспертные знания. Эти знания используются

* Работа выполнена за счет гранта Российского научного фонда (проект № 17-1101176)

1. Введение

затем для предсказания и принятия решений с помощью логического вывода. Логический вывод абстрагируются от возможной недостоверности знаний и осуществляют вывод, как будто мы имеем достоверные знания.

Вывод предсказаний описывается покрывающими моделями (Covering Law Models), состоящими в том, чтобы вывести факт как частный случай закона. Выделяют две модели предсказания:

1) Дедуктивно-номологическуюмодель(Deductive-Nomological (D-N)), основанную на фактах и дедуктивных законах;

2) Индуктивно-статистическую модель (Inductive-Statistical (I-S)), основанную на фактах и вероятностных законах.

Эти модели могут быть представлены следующей схемой,

Lb. •, Lm

сь. ■, cn

G

в которой Ь1,..., Ьт — множество дедуктивных законов для Б-К вывода предсказаний и вероятностных для 1-8 вывода предсказаний, Сх,..., Сп — множество фактов, в — предсказываемое высказывание.

Оценка степени достоверности выводимых в 1-8 выводе предсказаний вычисляется различными методами параллельно процессу логического вывода. Есть работы, в которых степень достоверности рассматривается как значение истинности утверждений, а процесс логического вывода обобщается до так называемых «количественных дедукций» [5; 6; 16]. В работах [9; 10; 13] описываются довольно богатые формальные системы, содержащие как частные случаи основные «количественные дедукции».

Рассмотрим, как ведут себя оценки степени достоверности решений в процессе логического вывода. Возможны два случая: 1) знания получены методами машинного обучения на вероятностных данных и 2) знания описываются и оцениваются экспертом:

1) Анализ изменения вероятностных оценок утверждений в процессе логического вывода показывает, что они могут значительно уменьшаться. Как следует из работ по вероятностной логике [7; 14; 8; 15], полученные оценки не могут быть улучшены. Даже если ограничиться использованием правил с условной вероятностью не меньшей чем 1-е, как это делается в [3], то это все равно не избавляет нас от существенного уменьшения вероятности в процессе вывода и, кроме того, это не соответствует условиям реально возникающих задач.

2) В работах по «количественной дедукции» истинностное значение заключения правила определяется как функция минимума или наибольшей нижней границы (для значений истинности в решетке) значений истинности атомов посылки. Соответствует ли это экспертным оценкам правила? Как правило, не соответствует. В этом случае ситуация по существу такая же, как и в предыдущем вероятностном случае, только проявляется она не в вероятностных терминах, а в терминах зависимости оценок эксперта от контекста, целостности восприятия ситуаций, адекватных и неадекватных (ситуациям) знаний и т. д. Если, например, атомы посылки правила описывают ситуацию, которая с точки зрения эксперта невозможна, то эксперт либо вообще откажется дать оценку заключению правила, либо присвоит ему значение близкое к нулю, хотя это правило по правилам вероятностной логики может иметь отличное от нуля значение.

Таким образом, несмотря на разнообразие формальных систем, вычисляющих оценки утверждений, адекватное вычисление оценок предсказаний отсутствует. В чем причина?

Причина в том, что, обобщая значения истинности, не обобщается сам процесс логического вывода. Следует осознать тот факт, что оценки утверждений делаются экспертом не в соответствии и не параллельно правилам логического вывода.

Предсказанием запроса некоторой логической программой РИ в Б-К выводе назовем такой путь вычисления запроса, на котором достигается максимум оценки условной вероятности запроса относительно подставленных в процессе вычисления фактов. Оценки условных вероятностей можно вычислить по вероятностным характеристикам правил и фактов, используя вероятностную логику (см. оценки в п. 4). Оценки не ухудшаются, если в процессе вывода используются правила, имеющие условную вероятность равную единице, и могут значительно ухудшаться, если используются правила с условной вероятностью строго меньшей 1.

Рассмотрим процесс вычисления с точки зрения «семантического» подхода к программированию [17]. Идея семантического программирования состоит в том, чтобы процесс вычисления рассматривать как проверку истинности утверждений (включая возможное использование логического вывода) на некоторой модели (моделью могут быть данные, представленные некоторой многосортной системой; некоторая специальная модель теории или абстрактного типа данных предметной области и т. д.). При таком взгляде на процесс вычисления, процедуру логического вывода можно обобщить, рассматривая более разнообразные взаимоотношения высказываний и модели — рассмотреть процесс вычисления как, например, определение вероятности, подтвержденно-

сти, достоверности, статистической значимости и т.д. высказываний на модели или классе моделей (выборок из некоторой генеральной совокупности или множества возможных миров в). Для этого вводится вероятность на множестве возможных миров или выборках из генеральной совокупности и таким образом определяется вероятностная модель

данных. Такой обобщенный вывод будем вслед за работой [17] называть семантическим. В работе семантический подход к созданию баз знаний рассматривается для случая логических программ в языке первого порядка с вероятностной мерой /л [7; 14; 8; 15] и соответствующей вероятностной моделью данных ШТ.

Целью предсказания некоторого запроса А, с семантической точки зрения, является нахождение таких вероятностных фактов (множеств фактов) в вероятностной модели данных Ш1, из которых запрос А следовал бы с максимальной условной вероятностью. Предсказание, получаемое логической программой, не удовлетворяет этой цели. Во-первых, вероятностные оценки запроса могут существенно снижаться в процессе вычисления, а, во-вторых, вычисление не всегда может приводить к фактам, дающим максимальную оценку условной вероятности запроса.

Для получения наилучших предсказаний для любого одноатомного запроса А в работе определяется семантический процесс вычисления - семантический вероятностный вывод (см. определение 8.1), в котором вычисление осуществляется путем движения вдоль «уточняющего» графа [18; 12]. В этом графе правила, начиная с А, уточняются, либо добавлением произвольного атома (или конъюнкции атомов) в посылку, либо применением подстановки. Выбор уточнения, удлиняющего соответствующую ветвь графа, определяется требованием увеличения условной вероятности, определяемой по вероятностной модели данных. Результатом вычисления является результирующая подстановка и достигнутая условная вероятность. На уточняющие правила в семантическом вероятностном выводе налагается (без ограничения общности) дополнительное требование - чтобы каждый атом в посылке был «существенным» для предсказания запроса А (удаление любого атома из посылки уменьшает условную вероятность запроса А). Такие правила называются вероятностными закономерностями (см. определение 6.4). Для семантического вероятностного вывода, таким образом, достаточно иметь множество всех возможных вероятностных закономерностей данной вероятностной модели данных Ш, обозначаемое через РЯ(Ш). Это множество закономерностей составляет индуктивно выведенную из вероятностной модели данных базу знаний. Отметим, что для семантического вероятностного вывода не нужны правила вывода. Процесс вычисления вполне определяется требованием увеличением оценки условной вероятности (определяемой вероятностной моделью данных Ж).

База знаний РК(*Ж) является в определенном смысле полным и минимальным множеством вероятностных знаний, обеспечивающим любой семантический вероятностный вывод и максимальную оценку предсказаний, и таким образом, удовлетворяет поставленной цели — получению наилучших предсказаний.

1-8 предсказание новых фактов по базе знаний РК^Ж) на некоторых данных Б (N3, принадлежащих случайно выбранной из множества возможных миров в модели 14, в соответствии с вероятностной моделью данных ШТ, может осуществляться логической программой РЩШТ, 14) = Р(ШТ) и где Р(9Л) с РЩШТ) - множество всех вероятностных

закономерностей с непустой посылкой. В работе доказывается, что программа РЩШТ, N3 предсказывает лучше любой другой логической программы, имеющей те же факты Б (14) (теорема 9.1). Более того, предсказание любого атома А осуществляется "лучшим для предсказания атома А правилом" (определение 8.2) в один шаг, не считая подстановки фактов. Таким образом, база знаний РК(*Ж), рассматриваемая как логическая программа, осуществляет 1-8 предсказание на одних и тех же фактах лучше чем Б-К предсказание любой другой логической программой.

В заключении отметим, что множество РЩШТ, 14) не является слишком большим. Понятие вероятностной закономерности было использовано для разработки метода обнаружения закономерностей [11; 1]. Этот метод был реализован и успешно применялся для решения ряда практических задач. Опыт решения задач показал, что множество РК(*Ж) практически может быть найдено даже на средних персональных компьютерах.

В настоящее время, наиболее перспективным применением метода обнаружения закономерностей на множестве возможных миров в являются локально-простые информационные системы, описанные в [2], когда рассматривается сложная сеть из локально-простых [2] моделей, входящих в в, описывающих, например, рабочие места, склады, кассовые аппараты и т. д. Тогда можно осуществлять прогнозирование поведения этих локально-простых моделей.

2. Вероятность. Эрбрановы модели. Вероятностная модель

данных

Зафиксируем язык первого порядка Ь с равенством не более чем счетной сигнатуры П = (РЬР2,...; •••; Сь С2, •••), С = {Ск€к}, К ф 0. Обозначим через и множество всех основных термов (не содержащих свободных переменных), X — множество переменных, Т — множество термов, Р — множество формул, Ро — множество формул без кванторов, Э — множество предложений (формул без свободных

переменных), = Го П Я- множество всех основных предложений сигнатуры П.

Следуя [8] определим вероятность /л на подмножестве Г С Р ф 0 предложений, замкнутом относительно логических операций &„ (равенство не строгое, для строгого равенства необходимы дополнительные аксиомы см. [8]).

Определение 2.1. [8] Вероятностью /л на подмножестве Г С Ж называется отображение /л, : Р —> [0,1], удовлетворяющее условиям:

1) Если Ь <р, то /л(<р) = 1;

2) Если i—¡(ф&,ф), то /л(ф v (р) = /л(ф) + ц{ф).

Следствие 2.1. [8]. Если Ь (<р = ф), то /л(<р) = ц(ф)- Если I-->(р, то

ф) = 0.

Вероятность /л является конечно-аддитивной мерой на подалгебре {ф/= |ф € Р} булевой алгебры Линденбаума - Тарского.

Определение 2.2. Вероятностной Эрбрановой моделью сигнатуры О будем называть пару М = (и, /л), где /л - вероятность на Функциональные символы интерпретируются на II обычным образом [4].

Определение 2.3. Эрбрановой моделью сигнатуры будем называть вероятностную Эрбранову модель М = (и,/л), где /л : —> {0,1}.

Рассмотрим множество Э всех Эрбрановых моделей М = (и, ¡л) сигнатуры П. Пусть дан некоторый класс Эрбрановых моделей в С Э (множество возможных миров) и вероятность ¡л на некотором подмножестве Р С 3? формул замкнутом относительно логических операций. Определим булеву подалгебру Б подмножеств С((р) = {М\М (Е в,м\=(р}, (р € 3? множества в, где |= выполнимость утверждения <р на модели М при означивании ¡л (где 1 - истина, 0 - ложь).

Определение 2.4. Класс Эрбрановых моделей С будем называть согласованным с вероятностью на множестве формул Р, если из С((р) = О, (р € Р следует /л((р) = 0.

Лемма 2.1. Величина г](С(<р)) = ¡л(<р), <р € Р является конечно-аддитивной мерой на подалгебре В, если класс Эрбрановых моделей С согласован с /л на множестве формул Р.

Доказательство. Так как Б — булева подалгебра подмножеств в является кольцом множеств, то достаточно доказать, что 77(0(^1) и 0(<р2)) = Г](С((Р1)) + Г](С((Р2)), если С((Р1)^С((Р2) = 0; <Р1,<Р2 € ^ . Так как

гксыисы) = ч<р2)) = ^2); = М;

= (^2); С^^ГЮ^г) = С((р1&(р2), то нам достаточно доказать, что /л((р1 У <р2) = ¡^{'Рх) + М^г), если СК= 0- Из определения меры ¡л

следует, что /Ji(<piV<p2) = M^i) + М^г) - M^i^^)- Из условия леммы и определения 2.4 следует, что если G((pi&(p2) = то /J.((pik(p2) =0. □

Если множество формул F совпадает с то будем говорить, что класс Эрбрановых моделей G согласован с вероятностной Эрбрановой моделью М = (U,/л), а модель М является вероятностной моделью множества возможных миров G или выборок из некоторой генеральной совокупности.

3. Логические программы

Обозначим через PR множество всех правил А 4— Ai,...,Ад., к > 0 сигнатуры, где A,Ai,... ,Ак - атомы сигнатуры Q. Если атом А отсутствует, то правило <— Ai,... ,Ак называется целью {запросом). Если к = 0, то правило А называется фактом.

Логическая программа Рг есть конечная совокупность правил. Подстановкой называется отображение в:Х —> Т. Подстановка в(х) = х называется тождественной. Обозначим через В множество всех подстановок. Подстановки естественным образом распространяются на произвольные выражения: так для терма t = f(ti,...,tra) и атома А = P(ti,...,tra) их подстановки соответственно равны

te = fM,.., tne), Ав = P(ti0,...,tra0). Правило АО-ir- Ai9,...,An9 называется вариантом правила АAi,... ,Ап если в - перестановка множества X.

Зафиксируем правило вычисления R, определяющее в каждом запросе выделенный атом. Пусть

N = Ai,...,Aí,...,Afc, k > 1 запрос, в котором правилом R выделен атом A¿ и

А Вь...,Вг

вариант некоторого правила программы Рг, в котором все переменные отличны от переменных запроса. Пусть в - наиболее общий унификатор атомов Ai и А. Тогда запросы

^(Аъ...,Въ...,Ви...,Ак)в,1> 1, (3.1)

^(Аъ...,Аг,...,Ак)в,1 = 0

будем называть выводимыми из запроса N по правилу А Bi,...,B¿ с помощью подстановки 9 и правила вычисления R. Как видно из определения, атом A i не удаляется из запроса при его унификации с некоторым фактом программы. Такие атомы выделяются подчеркиванием. Будем предполагать, что правило R не выбирает для очередного шага вывода подчеркнутые атомы.

Пространством вычислений для программы Рг и правила вычисления R называется множество всех возможных запросов сигнатуры Q

с заданным на нем отношением выводимости. SLDF-выводом (Linear resolution with Selection rule for Definite clauses and underlined Facts) цели N в некотором пространстве вычислений, назовем максимальную последовательность запросов N = No,Ni,N2... вместе с последовательностью правил Co,Ci,... и унификаторов 60,61,..., такую что запросы Nj_|_i выводимы из запросов Nj по правилам Cj с помощью подстановок 6i и правила вычисления R. SLDF-вывод - максимальный путь в пространстве вычислений, начинающийся с N. SLDF-вывод, заканчивающийся запросом, в котором все атомы подчеркнуты, называется успешным. Конечный SLDF-вывод, не являющийся успешным — тупиковым. Множество всех SLDF-выводов, начинающихся с цели N, обычно представляют в виде дерева (префикс дерева SLDF-выводов) и называют SLDF-деревом вычислений запроса N. SLDF-дерево, содержащее успешный SLDF-вывод, называется успешным.

4. Оценки вероятностей и условных вероятностей запросов

Пусть М = (U, ¡л) вероятностная Эрбранова модель. Рассмотрим успешный SLDF-вывод N,Ni,...,Nfc запроса N с помощью последовательности правил Co,Ci,..,Cfc_i некоторой программы Рг, последовательности унификаций 6o,6i,...,6k-i] 6 = 6о6\...6к-1 и некоторого правила вычислений R.

Последовательность запросов N0,Ni0,...,Nfc, 6 = 0о#1---#А:-1также будет SLDF-выводом запроса N6 с помощью последовательности правил Со6,С\6,...,Ск-\6 тождественных подстановок и правила вычислений R. Будем предполагать, что N0,Ni0,...,Nfc € В данном пункте факты А будем представлять правилами А true, тогда /л(С) = //(A/true) = //(А), для факта С = А ^ , А е Ж.

Определим через &Nj конъюнкцию всех не подчеркнутых атомов запроса Nj. Если все атомы подчеркнуты (как в запросе N^), то положим = true. Обозначим через &NjF (F - facts) конъюнкцию всех подчеркнутых атомов запроса Nj. Тогда &NjF — конъюнкция всех фактов, использованных в SLDF-выводе запроса N6.

Цель данного пункта - оценить вероятности /x(&;N0), /i(&N0/&NfcF) по SLDF-выводу запроса N6, предполагая, что нам известны только вероятности фактов и правил.

Рассмотрим вывод запросов (3.1) из запроса N0 = (^— Ai,...,Aj,...,Afc)0, k > 1 по правилу (Aj Bi,...,B|)0. Представим запросы (3.1) в виде N10 = ( Ai,...Ai_i,B,Ai+i,...,Afc)6l, В = Вь..,Вг или N10 = ( Ai,...,Aj,...,Ak)6. Второй запрос является частным случаем первого, когда В = true. Оценим вероятности /x(&;N0), /i(&N0/&Ni0) в предположении, что нам известны только вероятности /i(&Ni$), /x(Aj0), /х(&В0), р = ц(Агв/Шв).

СЕМАНТИЧЕСКИЙ ВЕРОЯТНОСТНЫЙ ВЫВОД ПРЕДСКАЗАНИЙ 41 Лемма 4.1. Если ^(кЩв) > 0 и кВв) > 0, то

1) /л( кМв) < ^(кМгв) + кВв);

2) /л( кМв) > ^(кМгв) - (1-р)ц( кВв);

3) /л( кШ/к^в) < р.ц( кВв)/ц(кМ1в);

4) ^(кШ/к^в) > 1 - (1-р)/1л( к(Ш\Агв)/ кВв).

Доказательство.

1.1х(Шв)=1х(ШвЛкВв)+1х(ШвЛ^кВв) < 1х(Ш1влАгв)+^кВв) < /¿(Шгд) + цЬкВв).

2. ц(Шд/Ш 10) = 1х(ШвЛкВв)/1х(Ш1в) < 1х(АгвЛкВв)/1х(Ш1в) = р.1х(кВв)/1х(Ш1в).

3. ц(Шд) > 1х(ШвЛкВв) > /¿(кШЛкВд) - ^ШвЛ^кАвЛкВв). Выражение из правой части пункта 2 утверждения леммы равно этому же выражению:

^(кПгв) - (1-р)ц(кВв) = 10) + ц(АгвЛкВв)~ ц{кВв) = ¿(Шгдлме) + ^(ШгдА^ме) + ¿(мелквелше) + ¿(Мелквел-^ше)- ц{квв) =

1х(кВвлШвлАгв) + (^(&В0Л&(М\А*0)Л-.А*0) +

1л(квелмелше)+ ¿(квелмел-^ше)- ц{квв)) = 1х(кввлшвлАгв)~ ¿(квел-^шел-^ме) = 1х(швлквв)~ ¿(-пкшл-^мелкве).

4. ^Шд/Шгд) = 1х(ШвЛкВв)/1х(Ш1в) >

\9) — (1 — р) 1л,{кВ9))/^{кНхв) (см. доказательство пункта 2). (М&ВД - {1-1>)ц{кВв))/^Шгв) = 1- (1 -р)/ц{к{т\А$)/кВв)1

где т\А$ = (<- Аь...Л-1Л+1-,Ак)в □

Следствие 4.1. Если ц( к^в) > 0, ц( кВв) > 0 и р = 1, то:

1) /л( кЩв) < /л( кМв) < /л( кЩв) + кВв).

2) ^(кШ/кЫхв) = 1.

Следствие 4.2. Если /л( к^в) > 0 и правило (А <— Ьгие)в является фактом, то:

1) /л( кМгв)+ ц(Ав) - 1 < /л(кМв) < /л( кЩв);

2) \-{\-1х(Ае))/ц(к(т\А^)) < ц(кт/шхе) < ^(Ав^к^в).

Доказательство. Следует из леммы 4.1 и равенства р = ц(Ав) □ Следствие 4.3. Если /л( кВО) > 0, то: 1) ц(к№Л кВв) < /л( кМгв)+ кВв);

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2) &Ш &В0) > ii(kNie)- (1 -р)ц(квв).

Доказательство. Следует из доказательств пунктов 1, 2 леммы 4.1. □

Рассмотрим SLDF-вывод N0,Ni0,...,Nfc запроса N0 посредством последовательности правил С if) = (А Вг1,...,Вгц)0, i = 0,1,..., k-1 и пустых унификаций. Положим Вг0 = (Вг1Л...ЛВгц)0, рi = ¡jl{Ci0).

Teopema 4.1. Если ¡i(El0) > 0, г = 0,l,...,k-l, то: ц,( &iN0/\A°0/\A10/\.../\Ak~10) > 1-

Доказательство. Используем оценку 2 следствия 4.3, примененную к последнему шагу вывода от kNk_i0 к N^. Получим Nfc_10ABfc_10) > —(1 — pk-i)/J.(Bk~l0), где = /.¿(true) = 1, так как все

атомы выделены. Рассмотрим вывод запроса &.Nk-i0/\Bk~10 из запроса &Nfc_2$ABfc-10 посредством правила Ck-2@- Снова применим оценку 2 Следствия 4.3. Получим: ц(№к-20ЛВк-1вЛВк~2в) > ^{Шк-гАВ^в) -(l-Pfc_2)Ai(Bfc~26l). Рассмотрим вывод запроса Шк_2в/\Вк~10АВк~20 из запроса &Nfc_30ABfc_10ABfc_20 посредством правила Ck-зв и т.д. Получим: 1х(Ш0АВ°0АВ10А... /\Вк~10) > ц{Ш10/\В10/\... /\Вк~10) -(1 -Po)/j,(Bo0). Подставляя левые части неравенств в их правые части, получим оценку

ШАВ°0[\В10[\... f\Bk~l0) > l-Ei=o Покажем, что если из конъюнкции

11(Ш0АВО0АВ10А... ЛВк~10) удалить все константы true, то получим конъюнкцию М&ШЛА°0/\А10/\... /\Ак~10). Заметим, что каждый атом конъюнкции Вг0 (true — не атом) в процессе вывода обязательно унифицируется с левой частью одного из правил. Следовательно, каждый атом конъюнкции В°0ЛВ10Л... /\Вк~10 содержится в конъюнкции А°0ЛА10Л... /\Ак~10. С другой стороны, каждый атом Аг0, i = 0,l,...,k-l содержится либо в &N0, либо в правой части одного из правил Ci0, i = 0,l,...,k-l. □

Следствие 4.4. Если ¡i(Bi0) > 0, i = 0,1,...,к-1, то: fx(kN0)> l-Eto(l "

Доказательство. Следует из fj,(kN0) > /л(&^0ЛА°0Л...ЛАк~10) и теоремы 4.1. □

Для каждого успешного SLDF-вывода N0 = No0,Ni0,...,Nfc существует успешный SLDF'-вывод N0 = No$,N в котором факты применяются последними и до запроса N применяются правила Сj с длиной 1 j > 1; j = 0,...,i-l. Тогда запрос N будет иметь вид Ai,...,Am, а запрос — вид Ai,...,Am. Такой SLDF'-вывод будем называть нормализованным.

Теорема 4.2. Если 1л(В>в) > О, j = 0,l,...,i-l, и ¡л( kNkF) > О, то

/j,(kN9/kNkF) >1- 1 - Р ¡М&еш kNkF),

где pj — условные вероятности, а В3в — условия правил Cj, j = l,...,i-l.

Доказательство. Проводится аналогично доказательству теоремы 4.1, но для нормализованного вывода и начинается с запроса i. Первое неравенство имеет вид: 11{т^1вк&-1в) > - (1 - Pi-i)в), где = /j,(kNkF). Далее, рассуждая как в теореме 4.1, получим неравенство

li(km/\B°e/\.../\Bi-1e) > - р}МВ*в).

Так как /х(&ШЛ В°0л... ABi-10) < /j,(kN6AkNkF), то

/x(&N0/&NfcF) = ц(ШдАШк¥)/ц{шк¥) > (n(kNkF) - YlfJi (1 " PjMBjd))/(kNkF).

□

5. Вероятностные оценки запросов логических программ

5.1. Определим вероятностные оценки ^(N), r?(N) запросов для пространства вычислений программы Рг по правилу R. Рассмотрим SLDF-дерево некоторого запроса N пространства вычислений. Если SLDF-дерево не успешно, то оценки ^(N), r?(N) не определены. Для успешного SLDF-дерева рассмотрим множество {SLDF i,...,SLDF т} всех успешных нормализованных SLDF'-выводов целей N0i,...,N0m у которых конечные запросы N1fci,...,Nmfcm не содержат переменных. Если это множество пусто, то оценки ^(N), r?(N) не определены.

Вычислим оценки равные правой части неравенств след-

ствия 4.4 вероятностей /x(&;N0i) vi,...,/j,(kN6m) ит запросов N0i,...,N0m. Вычислим также оценки rji,..., rjm, равные правой части неравенств теоремы 4.2 для условных вероятностей

M&nv&nVf) > г?!,..., ii(krnm/kNmkmF) > Т]т

запросов N0i,...,N0m. Положим

z/(N) = sup{z/b...,z/m}, r?(N) = sup{r?i,...,r?m}.

Выбор операции sup не регламентируется чисто логическими соображениями. В данном случае автор исходит из желания объединить такие понятия как логический вывод (с вероятностными оценками) и предсказание.

Если один из выводов SLDF i,...,SLDF т состоит только в применении фактов, то, как следует из теоремы 4.2, он будет иметь оценку Т](N) = 1. Назовем такой SLDF-вывод проверкой истинности запроса N (по аналогии с семантическим программированием [13]). Предсказанием запроса N будем называть такой SLDF-вывод запроса N9, на котором достигается оценка ?y(N). Оценкой предсказания запроса N будем называть величину ?y(N). Если предсказание не определено, то оценка предсказания r?(N) не определена.

5.2. Пусть М = (U, /х) - вероятностная Эрбранова модель, согласованная с классом G.

Определение 5.2.1. Правило С = А <— В\,...,Вк, к > 0 программы Рг применимо к классу Эрбрановых моделей G тогда и только тогда, когда М|= (В1,..., Вк)0 для некоторой подстановки в € 0G и модели М € G, где QG - множество всех подстановок основных (Ground) термов вместо переменных. Если правило не содержит переменных, то оно применимо к классу Эрбрановых моделей G тогда и только тогда, когда существует модель М € G, М|= (В1, ...,Вк).

Далее будем предполагать, что все правила С = А Bi,...,Bfc, к > 0 программы Рг применимы к классу моделей G. Обозначим через PR(G) с PR множество всех правил сигнатуры применимых к классу Эрбрановых моделей G.

Определение 5.2.2. Правило С = А <— В\,...,Вк, к > 0 программы Рг истинно на Эрбрановой модели М € G тогда и только тогда, когда М |= (Ад (В1,...,Вк)9), в € 6G, М <е G.

Определение 5.2.3. Программа Рг истинна на Эрбрановой модели М € G, М |= Рг тогда и только тогда, когда каждое правило программы истинно на М.

Определение 5.2.4. Программа Рг истинна на классе моделей G тогда и только тогда, когда М |= Рг, М € G.

Распространим вероятность /л на множество формул со свободными переменными Fo- Для ip € Fo\S положим

ц(ф) = inf Ыфв)} в € 6G

Распространим вероятность /л на множество правил программы Рг. Для правил С = А Bi,...,Bfc к > 0, не содержащих переменных, определим условную вероятность равенством:

МС) = MA)/MBi&...&Bfc).

Эта вероятность определена, т.к. правила программы применимы к классу Эрбрановых моделей G и /x(Bi&...&Bfc) ф 0.

Для правил С = А Bi,...,Bfc к > 0 с переменными определим условную вероятность равенством:

/л( С) = /х(А/В1&...&Вк) =

Эта вероятность также определена, т.к. правила программы применимы к классу Эрбрановых моделей G и /t((Bi&...&Bfc)0) ф 0, в € ©G. При к = 0 правило С = А рассматривается как правило А true с вероятностью посылки //(true) = 1.

Лемма 5.2.1. ц(фв) > <р € Fq, в - некоторая подстановка.

Лемма 5.2.2. Если программа Рг истинна на классе моделей G, то ц,(С) = 1, С € Рг.

Доказательство. Пусть С = А Bi,...,Bfc; С Рг, к > 0;

КС) = jf^MAe/(B1k...kBk)e)}.

Так как программа Рг истинна на G, то G(Aв (Bi,...,Bfc)0) = G для любой подстановки в € BG. Так как мера согласована с классом моделей G, то /¿(Ав (Bi,...,Bfc)0) = 1, в € 9G и, следовательно,

МА0/(Вь...,В*)0) = 1- □

6. Детерминированные и вероятностные закономерности

Определим на множестве РИ отношение ► - «быть более общим». Обозначим множество всех подстановок, не являющихся перестановками, кроме тождественной, через ©1.

Определение 6.1. Отношение С ► (3 , С = А В\,...,Вп; <3 = А' <— В\,...,Вп1 , п,п' > 0 имеет место тогда и только тогда, когда существует подстановка в € такая, что Ав = А , {Вгв,...,Впв} с {В 1,...,В п/} и либо в не тождественная подстановка, либо п < п'.

Обозначим через \У(в) с РИ множество правил, применимых к в и истинных на в (определение 5.2.2). Тогда //(С) = 1, С € \^(С).

Лемма 6.1. Отношение ► - строгий частичный порядок на РЯ.

Лемма 6.2. Если С € Ш(О) и С ► С!, то С! € Ш(О).

Пусть \\Ш(С) с W(G) — множество всех максимальных по отношению ► правил из \У(С). Правила из \\Ш(С) нельзя обобщить, сохраняя их истинность на в.

Определение 6.2. Правила из \¥Р(С) будем называть детерминированными закономерностями или Б-правилами.

Определение 6.3. Назовем отношение С с с! (С ► С!)к,(ц(С) < ¡1(d)), С, d € PR(G) отношением вероятностной выводимости.

Определение 6.4. Вероятностной закономерностью (Р-правилом) будем называть правило С € PR(G), такое, что из d ► С, d € PR(G) следует С' С С.

Если детерминированные закономерности нельзя обобщить, сохраняя их истинность на классе моделей G, то вероятностные закономерности нельзя обобщить, не уменьшая их условную вероятность. Обозначим через PR(G) множество всех Р-правил.

Лемма 6.3. Если существует С. С ► C,n(d)>n(C), то С ф. PR(M).

Лемма 6.4. D-правило С, С € PR(G) является Р-правилом, если из d ► с. (: € PR(G) следует что ц(С') < 1.

7. Предсказание и индуктивный синтез логических программ

Полный набор фактов для класса моделей G составляет совокупность множеств F(N) = {А |А - atom, N |= А для любого состояния атома А}, N € G. Любую конечную совокупность D конечных подмножеств D(N) с F(N), N € G будем называть данными. Вероятностную Эрбранову модель М, согласованную с классом G, будем называть вероятностной моделью данных D.

Как следует использовать правила С = А Bi,...,Bfc, k > 1 из W(G) или PR(G) для предсказания? Если посылка правила (Bi&...&Bfc)0 истинна на некоторой случайно выбранной из G в соответствии с мерой /л модели N (при некоторой подстановке в € 9G: {Bi0,...,Bfc0} с F(N)), то заключение А в должно быть истинным на N с вероятностью ß{A0/(Bi&...&Bfc)0) > ß{k/Bik...kBk) = ß{G). Вероятность ß(C), определенная в параграфе 5 для правил со свободными переменными, дает нам нижнюю границу вероятностей предсказания атома АО. Заметим, что предсказание нужно делать по данным D(N) какой-то одной, случайно выбранной из G, модели N. Обозначим множество всех Р-правил с посылкой, содержащей хотя бы один атом, через P(G) с PR(G).

Определение 7.1. Логической программой индуктивно синтезированной по данным D в вероятностной модели данных М будем называть множество правил PR(M,N) = P(G)UD(N), где D(N') € D, N - некоторая модель, случайно выбранная из G в соответствии с вероятностной моделью данных М.

СЕМАНТИЧЕСКИЙ ВЕРОЯТНОСТНЫЙ ВЫВОД ПРЕДСКАЗАНИЙ 47 8. Семантический вероятностный вывод и предсказание

Определение 8.1. Семантическим вероятностным выводом (СВВ) произвольного атома А сигнатуры О будем называть максимальную последовательность правил С\ С С2 С ...; С\,С2,... € Р(С); С = Аг<— В1\,...,В1ц, г = 1,2,... такую, что атом А унифицируем с атомами А\,А2,... . Каждому выводу соответствует последовательность подстановок в\,в2,... из определения отношения ► . Подстановку в = в\в2 ... будем называть результатом семантического вероятностного вывода. Последнее правило в конечном выводе будем называть результирующим.

Лемма 8.1. Р-правило в СВВ выводе может быть только результирующим.

Деревом вероятностного семантического вывода атома А будем называть совокупность всех СВВ выводов запроса А.

Определение 8.2. Р-предсказанием некоторого атома А сигнатуры О программой РЯ(М^) = Р(С)иБ(М) будем называть такой СВВ вывод С\ С С2 С ... С С С ...; С\, С2,..., С,... € Р(С) запроса А, в котором:

1) Существует правило С = А^ В11,...,В1ц и подстановка в, такие что с Р(Ы); Ав = Агв; [л(Агв) < ц,(Сг);

2) Если Р-дерево вывода цели А пусто или требуемой подстановки не существует, то Р-предсказание не определено.

3) На правиле С достигается максимум условной вероятности ц(С) среди всех правил, удовлетворяющих условию 1, всех Р-вы-водов цели А.

4) Результатом Р-предсказания будем называть подстановку вр = вгв2...вг-1в, где в 1,02,...,0г-1 - подстановки СВВ вывода С\ С С2 С ... С С, удовлетворяющего 1 и 2.

5) Оценкой Р-предсказания будем называть величину г]р(А) = С Если Р-предсказание не определено, то оценка г]р(А) не определена.

6) Правило Сбудем называть наилучшим для предсказания атома А правилом по данным О(Ы) в вероятностной модели М.

9. Взаимосвязь семантического вероятностного и логического выводов

Пусть Рг - некоторая логическая программа, факты которой содержатся среди фактов D(N) программы PR(M, N) = P(G) U D(N).

Теорема 9.1. Если атом А предсказывается программой Рг с оценкой г] (А) > /л(Ав), для любой подстановки в € QG, то он Р-предсказыва-ется программой PR(M,N) с оценкой Р-предсказания г]р(А) > г](А).

Доказательство. По условию существует успешный SLDF-вывод Ав, € цели Ав в пространстве вычислений программы Рг такой, что ц(A6/mkF) > г](А) > ц(Ав), ц(кNfcF) > 0, Nfc = ^ Bi,...,B|; {Bi } С Рг, 1 > 1 (см. определение предсказания,

оценки г] и теорему 4.2).

Рассмотрим правило С = Ав Bi,...,B|. Из условия г](А) > /л(Ав) > О, следует что 1 > 1. Так как //(&;NfcF) > 0, то С € P(G). Кроме того из /x(A0/&NfcF) > г](А) следует, что /л(С) > г](А) > /л(Ав) и значит выполнено условие 1 определения 8.2 и Р-предсказание атома А определено. Тогда существует наилучшее для предсказания атома А правило СВ и г]р(А) = /х(СВ). Из условия 2 этого определения 8.2 следует, что г]р(А) = МСВ) > > ??(А). □

Список литературы

1. Витяев Е. Е. Извлечение знаний из данных. Компьютерное познание. Моделирование когнитивных процессов / Е. Е. Витяев. - Новосибирск : НГУ, 2006. -293 с.

2. Малых А. А. Документное моделирование / А. А. Малых, А. В. Мандивода // Изв. Иркут. гос. ун-та. Сер. Математика. - 2017. - Т. 21.

3. Adams Er. W. The logic of conditionals: An application of probability to deductive logic / Er. W. Adam // Synthese Library. - 1975. - Vol. 86.

4. Apt K. R. Introduction to logic programming / K. R. Apt // Computer Science / Department of Software Technology, Report CS-R874.

5. Van Emden M. N. Quantitative deduction and its fixpoint theory / M. N. Van Emden // J. Logic Programming. - 1986. - Vol. 3, N 1. - P. 37-53. https://doi.org/10.1016/0743-1066 (86) 90003-8

6. Fitting M. C. Logic Programming on a Topological Bilattices / M. C. Fitting // Fundamenta Informática. - 1988. - Vol. 11. - P. 209-218.

7. Gaifman H. Concerning measure in first order calculi / H. Gaifman // Israel journal of Math. - 1964. - Vol. 2, N 1. - P. 1-18. https://doi.org/10.1007/BF02759729

8. Hailperin T. Probability Logic / T. Hailperin // Notre Dame J. of Formal Logic. -1998. - Vol. 25, N 3. - P. 198-212. https://doi.org/10.1305/ndjfl/1093870625

9. Kifer M. Theory of Generalized Annotated Logic Programming and its Applications / M. Kifer, V. S. Subrahmanian // Research Report. - University of Maryland, USA, 1990.

10. Ng R. Т. Probabilistic reasoning in Logic Programming / R. T. Ng, V. S. Subrahmanian // Proc. 5th Symposium on Methodologies for Intelligent Systems.

- Knoxville, North-Holland, 1990. - P. 9-16.

11. Kovalerchuk B. Data Mining in Finance: Advances in Relational and Hybrid Methods/ Boris Kovalerchuk, Evgenii Vityaev. - Kluwer Acad. Publ., 2000. - 308 p.

12. Matthew M. Huntbach An improved vershion of Shapiro's Model Inference system / M. Matthew // Third International conference on Logic Programming (Lecture Notes in Computer Science ; vol. 225). - P. 180-187.

13. Ng R.T. Annotation Variables and Formulas in Probabilistic Logic Programming / R. T. Ng, V. S. Subrahmanian // Technical report CS TR-2563. - University of Maryland, 1990.

14. Nillson Nils J. Probability logic / Nils J. Nillson // Artif. Intell. - 1986. - Vol. 28, N 1. - P. 71-87. https://doi.org/10.1016/0004-3702 (86) 90031-7

15. Scott D. S. Assigning Probabilities to Logical Formulas / D. S. Scott, P. Krauss // Aspects of Inductive Logic / eds.: J. Hintikka, P. Suppes. - N. Holland, 1966. - P. 219-264. https://doi.org/10.1016/S0049-237X(08)71672-0

16. Shapiro E. Logic Programs witn Uncertainties: A Tool for Implementing Expert Systems / E. Shapiro // Proc. IJCAI '83, Williams Kauffman. - 1983,- - P. 529-532.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

17. Goncharov S. S. Semantic programming / S. S. Goncharov, Yu. L. Ershov, D. I. Sviridenko // 10th World Congress Information Processing 86, Dublin, Oct., 1986.

- Amsterdam, 1986. - P. 1093-1100.

18. Shapiro E. Algorithmic Program Debugging / E. Shapiro. - MIT Press., 1983. -204 p.

Витяев Евгений Евгеньевич, доктор физико-математических наук, профессор, Институт математики им. С. JI. Соболева, 630090, Новосибирск, пр-т Акад. Коптюга, 46, тел.: (383)3297691 (e-mail: vityaev@math.nsc.ru)

E. E. Vityaev

Semantic Probabilistic Inference of Predictions

Abstract. Prediction is one of the most important concepts in science. Predictions obtained from probabilistic knowledge, are described by an inductive-statistical inference (I-S inference). However, such an inference encounters a problem of synthesis the logic and probability that consists in the rapid decreasing of the probability estimates of predictions in the process of logical inference. The procedures for calculating estimates in the Probabilistic Logic Programming do not solve the problem. From our point of view, prediction can not be well combined with a logical inference. Logical inference should be replaced by calculations. The paper proposes a semantic approach to the calculation of prediction, when the inference is considered not as verification of the truth of some statement on the model, but as a search for facts in the model, predicting the statement with a maximum probability. To do this, the work defines a semantic probabilistic inference forcalculating the predictions. In the process of semantic probabilistic inference, estimates of predictions strictly increase. We prove in the paper that prediction estimates obtained by the semantic probabilistic inference are certainly not worse than the estimates obtained by the logical inference with the parallel calculation of these estimates.

Keywords: prediction, probabilistic inference, semantics, logical programs, probabilistic logic programming.

References

1. Vityaev E.E. Izvlechenie znaniy iz dannykh. Komp'yuternoe poznanie. Modelirovanie kognitivnykh profeessouJExtracting knowledge from data. Computer cognition. Modeling of cognitive processes]. Novosibirsk, NSU, 2006. 293 p.

2. Malykh A., Mantsivoda A. Document modeling. Izv. Irkutsk. Cos. Univ. Ser. Mat., 2017, vol. 21. (in Russian)

3. Adams Er.W. The logic of conditionals. An application of probability to deductive logic. Synthese Library, vol. 86, 1975.

4. Apt K.R. Introduction to logic programming. Computer Science. Department of Software Technology, Report CS-R874.

5. Van Emden M.N. Quantitative deduction and its fixpoint theory. J. Logic Programming, 1986, vol. 3, no 1, pp. 37-53. https://doi.org/10.1016/0743-1066(86)90003-8

6. Fitting M.C. Logic Programming on a Topological Bilattices. Fundamenta Informatica, 1988, vol. 11, pp. 209-218.

7. Gaifman H. Concerning measure in first order calculi. Israel journal of Math, 1964, vol. 2, no 1, pp. 1-18. https://doi.org/10.1007/BF02759729

8. T.Hailperin, Probability Logic. Notre Dame J. of Formal Logic, vol. 25, no 3, 1984, pp.198-212. https://doi.org/10.1305/ndjfl/1093870625

9. Kifer M., Subrahmanian V.S. Theory of Generalized Annotated Logic Programming and its Applications. Research Report, University of Maryland, USA, 1990.

10. Ng R.T., Subrahmanian V.S. Probabilistic reasoning in Logic Programming. Proc. 5th Symposium on Methodologies for Intelligent Systems, Knoxville, North-Holland, 1990, pp. 9-16.

11. Kovalerchuk Boris, Vityaev Evgenii. Data Mining in Finance: Advances in Relational and Hybrid Methods. Kluwer Acad. Publ., 2000. 308 p.

12. Matthew M. Huntbach An improved vershion of Shapiro's Model Inference system. Third International conference on Logic Programming (Lecture Notes in Computer-Science, vol. 225), pp. 180-187.

13. Ng R.T., Subrahmanian V.S. Annotation Variables and Formulas in Probabilistic Logic Programming. Technical report CS TR-2563, University of Maryland, 1990.

14. Nils J. Nillson. Probability logic. Artif. Intell, 1986, vol. 28, no 1, pp. 71-87. https://doi. org/10.1016/0004-3702 (86) 90031-7

15. Scott D.S., Krauss P. Assigning Probabilities to Logical Formulas. Aspects of Inductive Logic, (ed. J. Hintikka, P. Suppes), N. Holland, 1966, pp. 219-264. https://doi.org/10.1016/S0049-237X(08) 71672-0

16. Shapiro E. Logic Programs with Uncertainties: A Tool for Implementing Expert Systems. Proc. IJCAI '83, Williams Kaufman, 1983, pp. 529-532.

17. Goncharov S.S., Ershov Yu.L., Sviridenko D.I. Semantic programming. 10th World Congress Information Processing 86, Dublin, Oct., 1986, Amsterdam, 1986, pp. 1093-1100.

18. Shapiro E. Algorithmic Program Debugging. MIT Press, 1983, 204 p.

Vityaev Evgenii Evgenievich, Doctor of Sciences (Physics and Mathematics), Professor, Novosibirsk State University, 4, Koptug, Novosibirsk, 630090 tel.: (383)3297691 (e-mail: vityaev@math.nsc.ru)

Семантический вероятностный вывод предсказаний Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Витяев Евгений Евгеньевич

Похожие темы научных работ по математике , автор научной работы — Витяев Евгений Евгеньевич

Semantic Probabilistic Inference of Predictions

Текст научной работы на тему «Семантический вероятностный вывод предсказаний»