Gabriele Kern-Isberner LS 1 { Information Engineering · (Statistik!) G. Kern-Isberner (TU...
Transcript of Gabriele Kern-Isberner LS 1 { Information Engineering · (Statistik!) G. Kern-Isberner (TU...
Commonsense Reasoning
Gabriele Kern-IsbernerLS 1 – Information Engineering
TU DortmundSommersemester 2016
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 1 / 232
Commonsense Reasoning – Ubersicht
• Ubersicht, Organisatorisches und Einfuhrung
• Nichtklassisches Schlussfolgern
• Rangfunktionen – ein einfaches epistemisches Modell
• Probabilistische Folgerungsmodelle und -strategien
• Qualitative und Quantitative Wissensreprasentation
• Argumentation
• (Commonsense Reasoning in Multi-Agentensystemen)
• Schlussteil und Prufungsvorbereitung
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 2 / 232
Kapitel 4
4. ProbabilistischeFolgerungsmodelle und -strategien
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 3 / 232
Ubersicht Kapitel 4 – Probabilistik
4.1 Einfuhrung und Ubersicht
4.2 Wahrscheinlichkeitstheorie und Commonsense Reasoning
4.3 Grundideen probabilistischen Schlussfolgerns
4.4 Schlussfolgern uber Unabhangigkeiten
4.5 Propagation in baumartigen Netzen
4.6 Probabilistische Inferenz auf der Basis optimaler Entropie
4.7 Schlussworte und Zusammenfassung
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 4 / 232
Ubersicht Kapitel 4 – Probabilistik
4.1 Einfuhrung und Ubersicht
4.2 Wahrscheinlichkeitstheorie und Commonsense Reasoning
4.3 Grundideen probabilistischen Schlussfolgerns
4.4 Schlussfolgern uber Unabhangigkeiten
4.5 Propagation in baumartigen Netzen
4.6 Probabilistische Inferenz auf der Basis optimaler Entropie
4.7 Schlussworte und Zusammenfassung
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 5 / 232
Kapitel 4
4. ProbabilistischeFolgerungsmodelle und -strategien
4.1 Einfuhrung und Ubersicht
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 6 / 232
Probabilistische Folgerungsmodelle und -strategien Einfuhrung und Ubersicht
Qualitative und quantitative Information
Fur die Durchfuhrung semantisch sinnvoller Inferenzen sind extralogische,qualitative Information (gegeben z.B. durch Plausibilitatsrelationen oder-range) notwendig.
Default-Schlussfolgern fallt besonders leicht im Rahmen derOCF-Funktionen, bei denen man – wie in der Wahrscheinlichkeitstheorie –konditionieren konnte und die tatsachlich als qualitativeWahrscheinlichkeiten gedeutet werden konnen (s. spater).
• Was hat Wahrscheinlichkeitstheorie mit Commonsense Reasoning zutun?
• Gibt es generell quantitatives Commonsense Reasoning?
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 7 / 232
Probabilistische Folgerungsmodelle und -strategien Einfuhrung und Ubersicht
Eine lange Tradition . . .
• Die Idee, Wissen mit Sicherheitsgraden zu versehen, ist sehr alt – dieWahrscheinlichkeitstheorie ist die alteste Theorie der Unsicherheit.
• Es ist auch die alteste Theorie, in der uber Wissensdynamiknachgedacht wurde – Konditionalisierungen mittels bedingterWahrscheinlichkeiten machen Wissensanderungen unter Einbeziehungneuer Informationen moglich.
• Daruber hinaus ist die fundierte Reprasentation und Verarbeitungkonditionalen Wissens mittels bedingter Wahrscheinlichkeiten bisheute ein wichtiges Vorbild fur das Default-Schlussfolgern.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 8 / 232
Probabilistische Folgerungsmodelle und -strategien Einfuhrung und Ubersicht
Wahrscheinlichkeit und Dynamik
Im Rahmen der Wahrscheinlichkeiten scheint also eine Flexibilisierung undDynamisierung von Wissen besonders leicht moglich.
Aufgrund des Zusammenhangs zwischen Wahrscheinlichkeit undInformation
Inf(A) = − logP (A)
kann man sogar von einer inharenten Dynamik von Wahrscheinlichkeitensprechen, da sie den Wert eines potentiellen Informationsflusses messen.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 9 / 232
Probabilistische Folgerungsmodelle und -strategien Einfuhrung und Ubersicht
Wahrscheinlichkeit als zentraler Ansatz
In der Wahrscheinlichkeitstheorie fließen also die fundamentalen Ideen(und Wunsche!) des Commonsense Reasonings zusammen:
• Nichtmonotonie
• meta-logische Informationen
• Konditionale
• Flexibilisierung, Dynamik
• Verbindung zum subjektiven Agenten-Wissen (Information!)
• Fur Informatiker: Verbindung zum objektiven Daten-Wissen(Statistik!)
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 10 / 232
Probabilistische Folgerungsmodelle und -strategien Einfuhrung und Ubersicht
Wahrscheinlichkeit und Struktur
Die flexible Darstellung von Wissen durch Wahrscheinlichkeiten hat auchNachteile – das Schlussfolgern mit Wahrscheinlichkeiten ist hochgradignichtmonoton; probabilistischer Logik fehlt die Eigenschaft derKompositionalitat bzw. Wahrheitsfunktionalitat.
Zur Strukturierung probabilistischen Wissens hat sich das Konzept derbedingten Unabhangigkeit bewahrt, zu seiner Organisation undVerarbeitung benutzt man gerne probabilistische Netzwerke.
Wichtig ist, eine Verbindung zwischen qualitativer/struktureller undquantitativer/numerischer Information zu schaffen.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 11 / 232
Probabilistische Folgerungsmodelle und -strategien Einfuhrung und Ubersicht
Ubersicht Kapitel 4
Kapitel 4 wird sich im Wesentlichen mit folgenden Themen beschaftigen:
• Folgern uber Abhangigkeiten und Unabhangigkeiten;
• probabilistische Informationsflusse und probabilistische Inferenzen;
• Inferenz auf der Basis optimaler Entropie.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 12 / 232
Probabilistische Folgerungsmodelle und -strategien Einfuhrung und Ubersicht
Mehrwertige Aussagevariable 1/2
Anstelle von binaren (logischen) Aussagenvariablen werden wir hier in derRegel mehrwertige Aussagevariable betrachten, das sind Aussagevariablen,die mehr als nur zwei Werte annehmen konnen.
Aussagenvariablen werden mit großen Buchstaben bezeichnet, ihre Wertemit kleinen Buchstaben:
A = {a1, . . . , an}
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 13 / 232
Probabilistische Folgerungsmodelle und -strategien Einfuhrung und Ubersicht
Mehrwertige Aussagevariable 2/2
Beispiel: Spielkartenfarbe ist eine mehrwertige Aussagevariable mit denAuspragungen
Herz, Karo, Kreuz, Pik ,
ebenso ist Spielkartenwert eine mehrwertige Aussagevariable mit denAuspragungen
1,2, . . . , 10, Bube, Dame, Konig, As.
Jede Spielkarte wird eindeutig durch diese beiden Variablen beschrieben,z.B.:
Herz As: Spielkartenfarbe = HerzSpielkartenwert = As ♣
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 14 / 232
Probabilistische Folgerungsmodelle und -strategien Einfuhrung und Ubersicht
Literatur
Die Vorlesung orientiert sich in diesem Kapitel an einem Klassiker:
J. Pearl (Turing Award Winner 2012!).Probabilistic Reasoning in Intelligent Systems.Morgan Kaufmann, San Mateo, Ca., 1988.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 15 / 232
Probabilistische Folgerungsmodelle und -strategien Wahrscheinlichkeitstheorie und Commonsense Reasoning
Ubersicht Kapitel 4 – Probabilistik
4.1 Einfuhrung und Ubersicht
4.2 Wahrscheinlichkeitstheorie und Commonsense Reasoning
4.3 Grundideen probabilistischen Schlussfolgerns
4.4 Schlussfolgern uber Unabhangigkeiten
4.5 Propagation in baumartigen Netzen
4.6 Probabilistische Inferenz auf der Basis optimaler Entropie
4.7 Schlussworte und Zusammenfassung
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 16 / 232
Probabilistische Folgerungsmodelle und -strategien Wahrscheinlichkeitstheorie und Commonsense Reasoning
Kapitel 4
4. ProbabilistischeFolgerungsmodelle und -strategien
4.2 Wahrscheinlichkeitstheorie undCommonsense Reasoning
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 17 / 232
Probabilistische Folgerungsmodelle und -strategien Wahrscheinlichkeitstheorie und Commonsense Reasoning
Typische Probleme beim Commonsense Reasoning1/2
Die Probleme beim Commonsense Reasoning werden hauptsachlich durchzwei Faktoren verursacht:
• Mogliche Ausnahmen;
• Allgemeine Unsicherheit aufgrund von Umstanden, die wir nichtkennen.
Beides lasst sich im realen Leben nicht vermeiden!
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 18 / 232
Probabilistische Folgerungsmodelle und -strategien Wahrscheinlichkeitstheorie und Commonsense Reasoning
Typische Probleme beim Commonsense Reasoning2/2
Losungsansatz: Man quantifiziert Unsicherheit, d.h. misst die Sicherheitvon Aussagen mit Sicherheitsgraden.
Allerdings – Sicherheitsgrade sind keine Wahrheitswerte:
• Wahrheitswerte sind Einschatzungen von sichtbaren Dingen;
• Sicherheitsgrade sind Einschatzungen von unsichtbaren Dingen.
Klassische, syntaxorientierte Formelauswertung funktioniert hervorragendfur die Verarbeitung sichtbarer Fakten, kann aber vollstandig versagen furdie Verarbeitung unsichtbarer Fakten.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 19 / 232
Probabilistische Folgerungsmodelle und -strategien Wahrscheinlichkeitstheorie und Commonsense Reasoning
Beispiel – Gift
G1 und G2 sind hochwirksame Gifte, ihre letale Wirkung bei Einnahmelasst sich (z.B.) mit den Sicherheitsgraden 0.95 und 0.99 quantifizieren:
G1 [0.95], G2 [0.99].
Agent A ist experimentierfreudig, er schluckt beides:
G1 ∧G2 [?] – was passiert?
• Fall 1: G1, G2 verstarken sich: G1 ∧G2 [0.999999].
• Fall 2: G1, G2 beeinflussen sich nicht in ihrer Wirkung: G1 ∧G2 [0.99].
• Fall 3: G1 ist Gegengift zu G2: G1 ∧G2 [0.001].
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 20 / 232
Probabilistische Folgerungsmodelle und -strategien Wahrscheinlichkeitstheorie und Commonsense Reasoning
Extensionalitat und Intensionalitat 1/2
Es gibt zwei Ansatze, Sicherheitsgrade zu verarbeiten:
• extensionaler oder syntaktischer Ansatz: Hier werden Sicherheitsgradeals verallgemeinerte Wahrheitswerte behandelt, und die Sicherheiteiner Formel ist eine Funktion der Wahrheitswerte ihrer Teilformeln(Wahrheitsfunktionalitat).
• intensionaler oder semantischer Ansatz: Hier wird die Unsicherheitmoglichen Welten zugeordnet und auch dort ausgewertet.
Vor- und Nachteile:
• Extensionale Ansatze sind maschinell gut berechenbar, abersemantisch unzureichend (liefern nur Approximation).
• Intensionale Ansatze sind semantisch perfekt, aber ihre maschinelleAbbildung ist schwierig.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 21 / 232
Probabilistische Folgerungsmodelle und -strategien Wahrscheinlichkeitstheorie und Commonsense Reasoning
Extensionalitat und Intensionalitat 2/2
Wichtig ist auch die unterschiedliche Behandlung von Regeln in beidenAnsatzen:
• Eine extensionale Regel A→ B[m] ist eine Lizenz, auf B mitSicherheit m zu schließen, wann immer man A beobachtet (lokalerKontext).
• Eine intensionale Regel A→ B[m] ist ein elastischer Constraint, umdie Modelle von AB in einer gewissen, von m abhangigen Weiseniedriger einzuschatzen als die von AB oder ¬A ∨B (globalerKontext).
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 22 / 232
Probabilistische Folgerungsmodelle und -strategien Wahrscheinlichkeitstheorie und Commonsense Reasoning
Qualitative Anspruche des CommonsenseReasoning 1/2
Auch in numerischen Umgebungen lasst sich die Qualitat von plausiblenFolgerungen qualitativ beurteilen:
• Kontextsensitivitat: Folgerungen sollen den Kontext des Problemsberucksichtigen, der durch die verfugbare Information bestimmt wird.
• Relevanz: Es soll moglich sein, zwischen relevanten und irrelevantenFaktoren/Merkmalen zu unterscheiden.
• Bidirektionale Inferenzen: Korrekte Behandlung von abduktiven undinduktiven Inferenzen.Beispiel: Feuer verursacht Rauch (induktiv/Prognose), Rauch lasstauf Feuer schließen (abduktiv/Diagnose). ♣
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 23 / 232
Probabilistische Folgerungsmodelle und -strategien Wahrscheinlichkeitstheorie und Commonsense Reasoning
Qualitative Anspruche des CommonsenseReasoning 2/2
Wichtiger Aspekt des Commonsense Reasoning: Moglichkeit, (transitive)Abhangigkeiten zu blockieren und Abhangigkeiten zu induzieren:
Blockieren von Abhangigkeiten – Beispiel:
Wenn der Sprinkler an ist, dann ist der Rasen nass. (induktiv)Wenn der Rasen nass ist, dann hat es geregnet. (abduktiv)
Wenn der Sprinkler an ist, dann hat es geregnet. ?!♣
Induzieren von Abhangigkeiten (explaining away) – Beispiel:
Einbrecher losen Alarm aus.Der Alarm ist ausgelost.
Einbrecher (abduktiv)
Erdbeben losen Alarm aus.Erdbeben
Alarm (induktiv)Alarm, Erdbeben
¬ Einbrecher
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 24 / 232
Probabilistische Folgerungsmodelle und -strategien Wahrscheinlichkeitstheorie und Commonsense Reasoning
Wahrscheinlichkeiten im Commonsense Reasoning
Man kann zeigen:
Die Wahrscheinlichkeitstheorie ist die einzige unsichereFolgerungsmethodik ist, die alle Anspruche des Commonsense
Reasoning erfullt.
R.T. CoxProbability, frequency and reasonable expectationAmerican Journal of Physics 14(1), p. 1-13, 1946
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 25 / 232
Probabilistische Folgerungsmodelle und -strategien Wahrscheinlichkeitstheorie und Commonsense Reasoning
Wahrscheinlichkeiten in der KI und im alltaglichenLeben
Einerseits – sehr alltaglich:
• “Da kommt eine große dunkle Wolke, es wird wahrscheinlich regnen.”
andererseits –
• “Wahrscheinlichkeiten sind epistemologisch unangemessen.”[McCarthy 1969]
• “Um mit Wahrscheinlichkeiten zu arbeiten, brauche ich jede MengeDaten.”
• “Menschen konnen nicht gut Wahrscheinlichkeiten verarbeiten, das istpsychologisch erwiesen.”
• “Statistiken lugen.” – “Ich mag keine Wahrscheinlichkeiten, die habeich noch nie verstanden.”
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 26 / 232
Probabilistische Folgerungsmodelle und -strategien Wahrscheinlichkeitstheorie und Commonsense Reasoning
Wahrscheinlichkeiten – effizient oder ineffizient?
Einerseits – als intensionales, semantisches Folgerungsinstrument istprobabilistisches Schlussfolgern sehr ressourcenintensiv.
Andererseits – in unsicheren Umgebungen hat man nur zwei “sichere”Alternativen:
• Man ignoriert Unsicherheit und wendet klassische Methoden an (mitz.T. katastrophalen Folgen!).
• Man versucht (so gut es geht), alle Moglichkeiten zu betrachten –Zeitverschwendung!
Wahrscheinlichkeiten bieten einen Ausweg aus diesem Dilemma:
Indem man wahrscheinliche Moglichkeiten berucksichtigt undunwahrscheinliche Moglichkeiten ausblendet, spart man wertvolle Zeit.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 27 / 232
Probabilistische Folgerungsmodelle und -strategien Wahrscheinlichkeitstheorie und Commonsense Reasoning
Ein einfuhrendes Beispiel 1/2
Alice und Bob spielen Karten:
♥A, ♥D, ♠A, ♠D.
Alice bekommt zwei Karten:
Alice : ∗1, ∗2
Einige (kombinatorische) a priori-Wahrscheinlichkeiten, die Bob berechnet:
P (♥A ∧ ♠A) = 1/6 P (♥A ∨ ♠A) = 5/6P (♥A) = 1/2 P (♠A) = 1/2
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 28 / 232
Probabilistische Folgerungsmodelle und -strategien Wahrscheinlichkeitstheorie und Commonsense Reasoning
Ein einfuhrendes Beispiel 2/2
Alice sagt nun: Ich habe ein As:
Alice : A ≡ ♥A ∨ ♠A.
Bob berechnet nun:
P (♥A ∧ ♠A|A) = 1/5 > 1/6.
Alice wird noch etwas genauer: Ich habe Pik As:
Alice : ♠A.
Bob: P (♥A ∧ ♠A|♠A) = 1/3 > 1/5.
Andererseits: Auch P (♥A ∧ ♠A|♥A) = 1/3, und Bob weiß schon bei A,dass Alice eines von beiden Assen haben muss.
Warum ist es dann entscheidend zu wissen, welches As Alice hat ?
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 29 / 232
Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns
Ubersicht Kapitel 4 – Probabilistik
4.1 Einfuhrung und Ubersicht
4.2 Wahrscheinlichkeitstheorie und Commonsense Reasoning
4.3 Grundideen probabilistischen Schlussfolgerns
4.4 Schlussfolgern uber Unabhangigkeiten
4.5 Propagation in baumartigen Netzen
4.6 Probabilistische Inferenz auf der Basis optimaler Entropie
4.7 Schlussworte und Zusammenfassung
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 30 / 232
Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns
Kapitel 4
4. ProbabilistischeFolgerungsmodelle und -strategien
4.3 Grundideen probabilistischenSchlussfolgerns
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 31 / 232
Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns
Probabilistik und plausibles Schlussfolgern 1/4
George Polya (1887-1985) machte sich in seinem 1954 erschienen BuchMathematics and plausible reasoning ernsthaft Gedanken um dasmenschliche Schlussfolgern; er stellte einige allgemeine Prinzipien fur dasplausible Schlussfolgern auf, darunter auch das folgende
Induktive Prinzip: Die Bestatigung einer Konsequenz macht eineHypothese glaubhafter.
Beispiel: Die Hypothese “Es regnete letzte Nacht.” wird glaubhafter, wennwir feststellen: “Das Gras ist nass.”
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 32 / 232
Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns
Probabilistik und plausibles Schlussfolgern 2/4
Polya glaubte, dass die Wahrscheinlichkeitstheorie der ideale Rahmenware, in dem sich plausibles Schlussfolgern realisieren ließe, da die Axiomeder Wahrscheinlichkeitstheorie keine Fehlschlusse zulassen wurden.
Tatsachlich lasst sich das induktive Prinzip probabilistisch nachvollziehen:
Nehmen wir an, es gilt A⇒ B und wir stellen B fest; nachzuweisen ist,dass A plausibler geworden ist durch B, d.h. es sollte gelten
P (A|B) ≥ P (A), wenn P (A⇒ B) = 1;
das lasst sich aber mit dem Satz von Bayes leicht zeigen.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 33 / 232
Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns
Probabilistik und plausibles Schlussfolgern 3/4
Der Haken hierbei ist, dass diese Schlussfolgerung nicht nur alleine von Aund B abhangt, sondern auch vom Kontext bzw. von anderen moglichenEvidenzen (= Beobachtungen).
Sind die Variablen
A : Es regnete letzte Nacht.B : Mein Rasen ist nass.C : Der Rasen meines Nachbarn ist trocken.
gegeben, so sollte fur eine “vernunftige” Wahrscheinlichkeitsverteilung Pgelten:
P (A|B) > P (A), aber P (A|B,C) < P (A).
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 34 / 232
Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns
Probabilistik und plausibles Schlussfolgern 4/4
Plausibles Schlussfolgern ist also nichtmodular – es genugt nicht,Bedingungen lokal zu uberprufen, sondern man muss immer den Kontextrelevanter Bedingungen sehen.
Wir werden sehen, dass dieser Kontext nicht zuletzt durch die Fragebestimmt wird, durch die die Berechnung der Wahrscheinlichkeitenangestoßen wird.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 35 / 232
Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns
Das Gefangenenparadoxon 1/7
Drei Gefange A,B,C warten auf die Urteilsverkundung. Sie wissen, dass(genau) einer von ihnen zum Tode verurteilt und am nachsten Morgengehenkt wird. In der Nacht bittet A den Warter, ihm zu verraten, wer vonden anderen beiden nicht gehenkt wird; da er ja weiß, dass mindestenseiner von ihnen freigelassen wird, nutzt ihm die Information nichts, sodenkt er. Der Warter antwortet ihm, dass B freigelassen wird. Als A zuseinem Bett zuruckgeht, stutzt er: “Seltsam, bevor ich mit dem Wartergesprochen habe, waren meine Chancen, gehenkt zu werden, 1/3. Nun, daich weiß, dass B morgen freigelassen wird, sind nur noch C und ich ubrig,also hat sich fur mich die Chance, gehenkt zu werden, auf 1/2 erhoht. . . ?!”
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 36 / 232
Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns
Das Gefangenenparadoxon 2/7
Wir arbeiten zunachst mit den folgenden Variablen:
GA A wird schuldig gesprochen (G = guilty)IB B wird frei gesprochen (I = innocent)
Die Wahrscheinlichkeit, dass A schuldig gesprochen wird, wenn B alsunschuldig gilt, betragt (nach dem Satz von Bayes):
P (GA|IB) =P (IB|GA)P (GA)
P (IB)
=1 · 1
323
=1
2
Ist das jedoch die Situation, in der sich A befindet ?
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 37 / 232
Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns
Das Gefangenenparadoxon 3/7
Eigentlich muss man doch folgende Variable betrachten:
I ′B Warter sagt, B wurde freigesprochen
Damit erhalt man als aktuelle Wahrscheinlichkeit
P (GA|I ′B) =P (I ′B|GA)P (GA)
P (I ′B)
=12 ·
13
12
=1
3
Dies ist die korrekte Wahrscheinlichkeit, da sie den Kontext der Fragebesser berucksichtigt.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 38 / 232
Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns
Das Gefangenenparadoxon 4/7
Nehmen wir nun an, es sind nicht drei, sondern 1000 Gefangene, diebesorgt dem nachsten Morgen entgegensehen, an dem genau einer vonihnen hingerichtet wird. A ist einer dieser Gefangenen, seineWahrscheinlichkeit, hingerichtet zu werden, betragt a priori 1
1000 .
Nun findet A eine Liste L, auf der 998 Namen von Gefangenen aufgefuhrtsind, alle mit dem Vermerk unschuldig – sein Name ist nicht darunter!Steigt seine Wahrscheinlichkeit, hingerichtet zu werden, damit auf 1
2 statt1
1000?
Ja, offensichtlich!
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 39 / 232
Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns
Das Gefangenenparadoxon 5/7
Was aber ware, wenn A nun unten auf der Liste den folgenden Zusatzfinden wurde:
Ausdruck der Namen von 998 unschuldigen rechtshandigenGefangenen
und A wusste, er ware der einzige Linkshander unter den Gefangenen?
In diesem Fall sollte sich die Wahrscheinlichkeit doch wieder bei 11000
einpendeln . . . oder ?.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 40 / 232
Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns
Das Gefangenenparadoxon 6/7
LRA A taucht auf der Liste der 998 unschuldigen rechtshandigenGefangenen auf
Gesucht ist die Wahrscheinlichkeit P (GA|¬LRA):
P (GA|¬LRA) = P (GA) = 0.001,
wegen des Satzes von Bayes.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 41 / 232
Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns
Das Gefangenenparadoxon 7/7
Fur den rechtshandigen Gefangenen B, dessen Name auch nicht auf derListe auftaucht, gilt jedoch
P (GB|¬LRB) =P (¬LRB|GB) P (GB)
P (¬LRB)
=1 · P (GB)
1− P (LRB)
=0.001
0.002= 0.5
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 42 / 232
Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns
Bedeutung des Kontextes
Fur die wahrscheinlichkeitstheoretische Beantwortung einer Frage ist alsoder Kontext von besonderer Bedeutung, wobei dieser durch die folgendenAspekte bestimmt wird:
• die Problemstellung und ihre Umgebung muss expliziert werden;
• die Fragestellung muss so genau wie moglich reprasentiert werden;
• man muss in der Regel einen Uberblick uber die moglichen Antwortenhaben.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 43 / 232
Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns
Autonome Informations-Agenten
Es ist jedoch nicht immer moglich, den Ursprung gewonnener Informationso genau in Erfahrung zu bringen.
Stellen wir uns die Situation vor, wir wurden zur Klarung einerFragestellung eine Reihe autonomer Informations-Agenten aussenden, dieInformationen zu bestimmten Teilfragestellungen zusammentragen sollen.Die Agenten benutzen zur Informationsgewinnung private Prozeduren, wirwissen also nicht, auf welche Weise die Informationen gewonnen wurden.
Wenn wir annehmen, dass die Teilfragestellungen zueinander disjunkt sind– d.h. jeder der Agenten sammelt Informationen zu einem eigenenTeilbereich – und dass die Information aus einer Wahrscheinlichkeit zueiner Teilfragestellung besteht, so fuhrt uns das auf Jeffrey’s Regel.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 44 / 232
Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns
Jeffrey’s Regel 1/4
Seien B1, . . . , Bn disjunkte Aussagen, uber die zunachstWahrscheinlichkeiten
P (B1), . . . , P (Bn)
bekannt sind; wir konnen annehmen, dass B1, . . . , Bn auch erschopfendsind, d.h. dass gilt
P (B1) + . . .+ P (Bn) = 1.
Wie verandert sich die gesamte Verteilung P , wenn nun neueInformationen uber die Wahrscheinlichkeiten der Bi bekannt werden?
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 45 / 232
Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns
Beispiel Kerzenlicht
Ein Agent untersucht ein Stuck Stoff bei schummeriger Beleuchtung; erschatzt die Farbe des Stoffes wie folgt ein:
P (grun) = 0.30, P (blau) = 0.30, P (lila) = 0.40;
er zundet nun eine Kerze an und revidiert nun seine Entscheidung:
P ∗(grun) = 0.70, P ∗(blau) = 0.25, P ∗(lila) = 0.05.
Im Prinzip ist P ∗ = P (·|e), wobei e die visuelle Wahrnehmung desAgenten bei Kerzenlicht reprasentiert, die sich jedoch in der Regel wederexplizit beschreiben lasst noch uberhaupt syntaktischer Bestandteil derProblemsprache ist.
Frage: Wie lasst sich dennoch P ∗ bestimmen?
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 46 / 232
Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns
Jeffrey’s Regel 2/4
Die Losung zu diesem Problem liefert eine Annahme, die man alsprobability kinematics bezeichnet – namlich, dass die neuenWahrscheinlichkeiten der Bi keine der unter Bi bedingtenWahrscheinlichkeiten andern sollte:
P ∗(A|Bi) = P (A|Bi)
Daraus ergibt sich sofort mit dem Satz von der totalen Wahrscheinlichkeit
P ∗(A) =
n∑i=1
P ∗(A|Bi)P ∗(Bi)
die Regel von Jeffrey:
P ∗(A) =
n∑i=1
P (A|Bi)P ∗(Bi).
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 47 / 232
Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns
Jeffrey’s und Bayes Regel
Jeffrey’s Regel verallgemeinert die Konditionalisierung nach Bayes:
Liegt namlich nur ein Ereignis B mit Wahrscheinlichkeit P ∗(B) = 1 vor,so ergibt Jeffrey’s Regel:
P ∗(A) = P (A|B)P ∗(B) = P (A|B),
d.h. die posteriori Wahrscheinlichkeit ist nichts anderes als die nach Bkonditionalisierte priori Wahrscheinlichkeit; umgekehrt erhalt man diebedingte Wahrscheinlichkeit als Spezialfall der Regel von Jeffrey, wenn dieneue Information sicher ist, also Wahrscheinlichkeit 1 besitzt.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 48 / 232
Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns
Jeffrey’s Regel 3/4
Die Anwendbarkeit von Jeffrey’s Regel hangt jedoch entscheidend von derAnwendbarkeit der probability kinematics-Annahme ab; wenn wir denAnsatz
P ∗ = P (·|e)
verwenden, konnen wir den folgenden Vergleich ziehen:
P ∗(A) =
n∑i=1
P (A|Bi)P ∗(Bi) (Satz von Jeffrey)
P (A|e) =
n∑i=1
P (A|Bi, e)P (Bi|e) (Satz v.d. totalen bed. W’keit).
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 49 / 232
Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns
Jeffrey’s Regel 4/4
Dieser Vergleich ist jedoch nur haltbar, wenn gilt
P (A|Bi) = P (A|Bi, e),
d.h. wenn A und e bedingt unabhangig unter Bi sind, d.h. e soll keinendirekten Einfluss auf A haben.
Dies ist eine wichtige Voraussetzung fur Jeffrey’s Regel!
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 50 / 232
Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns
Bedingte Unabhangigkeit 1/2
≈ Unabhangigkeit unter gewissen Umstanden
A,B,C (disjunkte) Mengen von mehrwertigen Aussagevariablen mitP (c) > 0 fur alle Vollkonjunktionen c uber C.
A und B heißen bedingt unabhangig gegeben C, in Zeichen
A |= P B | C,gdw. P (a|c ∧ b) = P (a|c).
Das ist aquivalent zu
P (a ∧ b|c) = P (a|c) · P (b|c).
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 51 / 232
Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns
Bedingte Unabhangigkeit 2/2
A,B,C mussen nicht unbedingt 6= ∅ sein:
• A = ∅ oder B = ∅: ∅ |= P B | C und A |= P ∅ | C gelten immer!
• C = ∅ → statistische Unabhangigkeit
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 52 / 232
Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns
Beispiel Kerzenlicht (Forts.)
Nehmen wir an, dass die Chancen des Verkaufs des Stoffes (A)ausschließlich von seiner Farbe abhangen, und zwar wie folgt:
Prob(A|grun) = 0.40,
P rob(A|blau) = 0.40,
P rob(A|lila) = 0.80,
wobei Prob jede der beiden Wahrscheinlichkeiten P und P ∗ bezeichnet.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 53 / 232
Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns
Beispiel Kerzenlicht (Forts.)
Wir konnen nun die Wahrscheinlichkeit, dass der Stoff am nachsten Tagverkauft werden kann, als priori- und als posteriori-Wahrscheinlichkeitberechnen:
P (A) = P (A|grun)P (grun) + P (A|blau)P (blau)
+P (A|lila)P (lila)
= 0.40 · 0.30 + 0.40 · 0.30 + 0.80 · 0.40= 0.56;
P ∗(A) = 0.40 · 0.70 + 0.40 · 0.25 + 0.80 · 0.05= 0.42
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 54 / 232
Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns
Beispiel Kerzenlicht (Forts.)
Die probability kinematics-Annahme, die in diesem Beispiel uberpruftwerden muss, ist die folgende
P (A|Farbe, e) = P (A|Farbe).
Da wir annehmen, dass die Moglichkeit des Verkaufs ausschließlich von derFarbe abhangt, ist die Annahme gerechtfertigt, wir konnten also die Regelvon Jeffrey anwenden.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 55 / 232
Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns
Modifiziertes Beispiel Kerzenlicht
Nehmen wir an, das Hauptinteresse des Betrachters gilt gar nicht demStoff, sondern der Kerze selbst – es sei bekannt, dass ein bestimmtesbilliges Wachs eine Flamme hervorbringt, deren Licht Lila-Tone verfalscht.
A Die Kerze ist aus dem billigen Wachs.
Die Voraussetzungen seien wie oben:
P (grun) = 0.30, P (blau) = 0.30, P (lila) = 0.40;P ∗(grun) = 0.70, P ∗(blau) = 0.25, P ∗(lila) = 0.05.
Kann man nun P ∗(A) mit Jeffrey’s Regel berechnen?
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 56 / 232
Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns
Modifiziertes Beispiel Kerzenlicht (Forts.)
In diesem Fall sind nun sicherlich vor dem Anzunden der Kerze (d.h. in P )A und Farbe voneinander unabhangig, d.h. es gilt
P (A|Bi) = P (A);
Die Anwendung von Jeffrey’s Regel ergibt dann
P ∗(A) =
3∑i=1
P (A)P ∗(Bi) = P (A),
d.h. das Anzunden der Kerze wurde keine neuen Erkenntnisse uber Abringen !
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 57 / 232
Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns
Modifiziertes Beispiel Kerzenlicht (Forts.)
Die Ursache dieses kontraintuitiven Ergebnisses liegt darin, dass hier dieprobability kinematics-Annahme
P (A|Bi, e) = P (A|Bi)
nicht haltbar ist, da die Farben im Kerzenlicht (Bi ∧ e) Ruckschlusse aufdas Kerzenwachs erlauben, die Farben alleine (Bi) jedoch nicht.
Das Konzept der bedingten Unabhangigkeit ist also von entscheidenderBedeutung fur das Schlussfolgern mit Wahrscheinlichkeiten.
→ Probabilistische Netzwerke (Netzwerktopologie druckt bedingteUnabhangigkeiten aus)
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 58 / 232
Probabilistische Folgerungsmodelle und -strategien Grundideen probabilistischen Schlussfolgerns
Markov- und Bayes-Netze – Ruckblick (DVEW)
Die bedingte Unabhangigkeit zwischen Variablen ist eine wichtigequalitative Information zur Strukturierung probabilistischer Information inNetzwerken:
• In (ungerichteten) Markov-Netzen zeigt die globaleMarkov-Eigenschaft bedingte Unabhangigkeiten an:
A |= G B | C impliziert A |= P B | C• In (gerichteten) Bayes-Netzen schirmen die Elternknoten die
Kindknoten gegen direkte Einflusse ab:
Ai |= P nd(Ai) | pa(Ai) fur alle i = 1, . . . , n
Zunachst einmal beschaftigen wir uns intensiver mit dem qualitativenPhanomen der bedingten Unabhangigkeit.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 59 / 232
Probabilistische Folgerungsmodelle und -strategien Schlussfolgern uber Unabhangigkeiten
Ubersicht Kapitel 4 – Probabilistik
4.1 Einfuhrung und Ubersicht
4.2 Wahrscheinlichkeitstheorie und Commonsense Reasoning
4.3 Grundideen probabilistischen Schlussfolgerns
4.4 Schlussfolgern uber Unabhangigkeiten
4.5 Propagation in baumartigen Netzen
4.6 Probabilistische Inferenz auf der Basis optimaler Entropie
4.7 Schlussworte und Zusammenfassung
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 60 / 232
Probabilistische Folgerungsmodelle und -strategien Schlussfolgern uber Unabhangigkeiten
Kapitel 4
4. ProbabilistischeFolgerungsmodelle und -strategien
4.4 Schlussfolgern uber Unabhangigkeiten
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 61 / 232
Probabilistische Folgerungsmodelle und -strategien Schlussfolgern uber Unabhangigkeiten
Relevanz und Abhangigkeit 1/3
Einer der wichtigsten Aspekte des menschlichen Schlussfolgern ist die
Fahigkeit, relevante Informationen fur einen Kontext zu erken-nen und irrelevante Details auszublenden.
Relevanz 6= Abhangigkeit
Es ist wichtig, Relevanz und Abhangigkeit voneinander zu unterscheiden.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 62 / 232
Probabilistische Folgerungsmodelle und -strategien Schlussfolgern uber Unabhangigkeiten
Relevanz und Abhangigkeit 2/3
• Relevanz impliziert immer AbhangigkeitBeispiel: Die Lesefahigkeit eines Kindes hangt von seiner Korpergroßeab. ♣
• Abhangigkeit impliziert aber nicht immer Relevanz, sondern hangtvon der verfugbaren Information ab.Beispiel: Ist das Lebensalter eines Kindes bekannt, so ist dieKorpergroße irrelevant fur seine Lesefahigkeit. ♣
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 63 / 232
Probabilistische Folgerungsmodelle und -strategien Schlussfolgern uber Unabhangigkeiten
Relevanz und Abhangigkeit 3/3
Relevanz von Informationen (informational relevance) zu erkennen ist einequalitative Eigenschaft des Commonsense Reasoning, die sich aberquantitativ abbilden lasst durch die probabilistische Eigenschaft derbedingten Unabhangigkeit:
P (A|K,B) = P (A|K) (K = Kontext)Im Kontext K liefert B keine zusatzliche Information fur A.
Beispiel: A = Lesefahigkeit, B = Korpergroße, K = Lebensalter. Dannist
P (A ∧B) 6= P (A) · P (B) A und B sind abhangig, aberP (A|B ∧K) = P (A|K) A und B sind
bedingt unabhangig im Kontext K.♣
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 64 / 232
Probabilistische Folgerungsmodelle und -strategien Schlussfolgern uber Unabhangigkeiten
Markov-Netze – Ruckblick (DVEW)
Die bedingte Unabhangigkeit zwischen Variablen ist eine wichtigequalitative Information zur Strukturierung probabilistischer Information(z.B.) in Markov-Netzwerken.
Markov-Netze sind ungerichtete, minimale Unabhangigkeitsgraphen, d.h.
• es gilt die globale Markov-Eigenschaft
A |= G B | C impliziert A |= P B | C,d.h. fehlende Kanten zeigen bedingte Unabhangigkeiten an.
• Es gibt keine uberflussige Kanten, d.h. besteht zwischen zwei KnotenA,B eine Kante, so sind A,B nicht bedingt unabhangig im Kontextder restlichen Knoten.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 65 / 232
Probabilistische Folgerungsmodelle und -strategien Schlussfolgern uber Unabhangigkeiten
Separation in ungerichteten Graphen 1/2 (DVEW)
Sei G = GV ein ungerichteter Graph mit Knotenmenge V.
Separation in G:
• paarweise disjunkte Teilmengen A,B,C von V;
• C separiert A und B,
Schreibweise: A |= G B | C
gdw. jeder Weg zwischen einem Knoten in A und einem Knoten in Bmindestens einen Knoten von C enthalt.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 66 / 232
Probabilistische Folgerungsmodelle und -strategien Schlussfolgern uber Unabhangigkeiten
Separation in ungerichteten Graphen 2/2
A C B
A |= G B | C
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 67 / 232
Probabilistische Folgerungsmodelle und -strategien Schlussfolgern uber Unabhangigkeiten
Bedingte Unabhangigkeit und Separation 1/2
Graphen sind also wichtige qualitative Mittel, um
• allgemeine Abhangigkeiten → Zusammenhang im Graphen
und gleichzeitig
• bedingte Unabhangigkeiten → fehlende Kanten
auszudrucken.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 68 / 232
Probabilistische Folgerungsmodelle und -strategien Schlussfolgern uber Unabhangigkeiten
Bedingte Unabhangigkeit und Separation 2/2
Aber: Graphische Separation und bedingte Unabhangigkeit sind ahnliche,aber keine aquivalenten Konzepte, d.h.A |= P B | C gdw. A |= G B | C ist (im Allgemeinen) nicht moglich, denn
• A |= G B | C impliziert A |= G B | (C ∪C′);
• es ist jedoch moglich, dass A |= P B | C gilt, nicht aberA |= P B | (C ∪C′).
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 69 / 232
Probabilistische Folgerungsmodelle und -strategien Schlussfolgern uber Unabhangigkeiten
Beispiel – (bedingte) Unabhangigkeit
G = {fem,mal} Geschlecht (fem = female, mal = male)M = {mar,mar} verheiratet (married)P = {preg, preg} schwanger (pregnant)
mal fem
mar preg 0.00 0.06
preg 0.20 0.14
mar preg 0.00 0.02
preg 0.30 0.28
Die Variablen Geschlecht und verheiratet sind statistisch unabhangig:gender |= P marriage | ∅ ,
aber sie sind bedingt abhangig gegeben Schwangerschaft:
nicht ( gender |= P marriage | pregnancy) !!!
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 70 / 232
Probabilistische Folgerungsmodelle und -strategien Schlussfolgern uber Unabhangigkeiten
Eigenschaften der bedingten Unabhangigkeit
Welche qualitativen Eigenschaften hat die bedingteUnabhangigkeit?
D.h. was lasst sich (logisch) uber die Relation A |= P B | C sagen?
Sicherlich gilt:
Wenn A |= P B | C, dann auch A |= P B | C fur jedes Paar von VariablenA ∈ A, B ∈ B.
Allerdings gilt hier nicht die Umkehrung – d.h. es gibt Beispiele mitVariablenmengen A,B,C so dass fur jedes Paar von VariablenA ∈ A, B ∈ B A und B bedingt unabhangig sind gegeben C, abertrotzdem gilt nicht A |= P B | C.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 71 / 232
Probabilistische Folgerungsmodelle und -strategien Schlussfolgern uber Unabhangigkeiten
Formale Eigenschaften 1/3
Seien A,B,C,D disjunkte Teilmengen von V.
• Symmetrie: A |= B | C gdw. B |= A | CIm Kontext C soll gelten: Wenn A uns nichts Neues uber B sagt,dann sagt uns auch B nichts Neues uber A.
• Zerlegung: A |= (B ∪D) | C impliziert A |= B | C undA |= D | CIst die Gesamtinformation B ∪D (im Kontext C) irrelevant fur A, soist auch jede einzelne Information irrelevant fur A.
• Schwache Vereinigung:A |= (B ∪D) | C impliziert A |= B | (C ∪D)
Der Relevanz-Kontext C kann vergroßert werden um Information, dieschon als irrelevant eingestuft wurde.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 72 / 232
Probabilistische Folgerungsmodelle und -strategien Schlussfolgern uber Unabhangigkeiten
Formale Eigenschaften 2/3
• Kontraktion:A |= B | C und A |= D | (C ∪B) impliziert A |= (B ∪D) | C
Schatzen wir D als irrelevant ein, nachdem wir irrelevante InformationB gelernt haben, dann muss D schon vorher irrelevant gewesen sein.
Schwache Vereinigung und Kontraktion besagen, dass irrelevanteInformationen nicht die Relevanzbeziehungen anderer Aussagenfureinander beeinflussen –
• relevante Aussagen bleiben relevant fureinander,
• irrelevante Aussagen bleiben irrelevant fureinander.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 73 / 232
Probabilistische Folgerungsmodelle und -strategien Schlussfolgern uber Unabhangigkeiten
Formale Eigenschaften 3/3
• Schnitt: A |= B | (C ∪D) und A |= D | (C ∪B) impliziertA |= (B ∪D) | CIst jede der Informationen B,D im jeweils um die andere Informationvergroßerten Kontext C irrelevant fur A, so ist auch dieGesamtinformation B ∪D im Kontext C irrelevant fur A.
Proposition 1
Ist P eine Verteilung uber V, so erfullt · |= P · | · die EigenschaftenSymmetrie, Zerlegung, Schwache Vereinigung und Kontraktion. Ist Paußerdem noch strikt positiv (d.h. P (v) > 0 fur alle v), so erfullt · |= P · | ·auch Schnitt.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 74 / 232
Probabilistische Folgerungsmodelle und -strategien Schlussfolgern uber Unabhangigkeiten
Formale Eigenschaften – Anmerkungen
• Die Schreibweise A |= B | (C ∪D) besagt dasselbe wieA |= B | (C,D). Wichtig ist, dass C ∪D nicht etwa C ∨Dbedeutet, sondern hier werden die Variablenmengen vereinigt, uberdie dann Vollkonjunktionen bzw. Konfigurationen gebildet werden.
• Alle genannten Eigenschaften werden auch von graphischerSeparation erfullt.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 75 / 232
Probabilistische Folgerungsmodelle und -strategien Schlussfolgern uber Unabhangigkeiten
Disjunkte Variablenmengen?
Die beteiligten Variablenmengen mussen nicht unbedingt disjunkt sein. Furallgemeine Variablenmengen muss man noch die folgende Eigenschaftbeachten:
A |= B | B
Dann gilt (gemeinsam mit den restlichen Eigenschaften):
A |= B | C gdw. A−C |= B−C | C
Alle genannten Eigenschaften sind von den anderen unabhangig, d.h. keineder Eigenschaften ist uberflussig.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 76 / 232
Probabilistische Folgerungsmodelle und -strategien Schlussfolgern uber Unabhangigkeiten
Strikte Positivitat bei Schnitt 1/2
Die Voraussetzung der strikten Positivitat von P ist fur den Nachweis derSchnitteigenschaft notwendig, wie das folgende Beispiel zeigt:
Beispiel “Ausflug”: A = {A},B = {B},C = ∅,D = {D}mit den folgenden Bedeutungen
A Wir machen einen Ausflug.B Das Wetter ist schon.D Es ist warm und sonnig.
A B D P (ω) A B D P (ω)
0 0 0 0.7 1 0 0 0.010 0 1 0 1 0 1 00 1 0 0 1 1 0 00 1 1 0.09 1 1 1 0.2
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 77 / 232
Probabilistische Folgerungsmodelle und -strategien Schlussfolgern uber Unabhangigkeiten
Strikte Positivitat bei Schnitt 2/2
P (b|d)=P (b|d)=P (d|b)=P (d|b)=1,
P (b|d)=P (b|d)=P (d|b)=P (d|b)=0
Daher A |= P B | D und A |= P D | B; die Schnitteigenschaft wurde abernun implizieren: {A} |= P {B,D} | ∅; es gilt aber
P (abd) = 0.2, P (a)P (bd) = 0.21 · 0.29 = 0.0609
und daher P (abd) 6= P (a)P (bd).
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 78 / 232
Probabilistische Folgerungsmodelle und -strategien Schlussfolgern uber Unabhangigkeiten
Markov-Graphen
Ein Markov-Graph G zu einer Wahrscheinlichkeitsverteilung P ist einminimaler Unabhangigkeitsgraph bezgl. P , d.h., es gilt die globaleMarkov-Eigenschaft:
A |= G B | C impliziert A |= P B | C,
und G enthalt keine uberflussigen Kanten.
Es gelten die folgenden Resultate:
• Zu jeder positiven Wahrscheinlichkeitsverteilung P gibt es einen(eindeutig bestimmten) Markov-Graph G0 = 〈V, E0〉, so dass(A,B) /∈ E0 gdw. A |= P B | (V − {A,B}).
• Andererseits lasst sich zu jedem ungerichteten Graphen G eineVerteilung P angeben, so dass G ein Unabhangigkeitsgraph von P ist.P heißt dann Markov-Feld bezgl. G.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 79 / 232
Probabilistische Folgerungsmodelle und -strategien Schlussfolgern uber Unabhangigkeiten
Verteilung → Markov-Graph:
Ausgehend von einem vollstandigen Graphen auf V entfernt man alleKanten (A,B), fur die A |= P B | (V − {A,B}) gilt.
Umgekehrt kann man naturlich auch von einem leeren Graphen startenund nur die Knoten verbinden, bei denen A |= P B | (V − {A,B}) fur dieentsprechenden Variablen falsch ist.
Theorem 1
Jede strikt positive Wahrscheinlichkeitsverteilung P besitzt einen eindeutigbestimmten Markov-Graphen G0 = 〈V, E0〉 mit
(A,B) /∈ E0 gdw. A |= P B | (V − {A,B})paarweise Markov-Eigenschaft
Auf die Voraussetzung der strikten Positivitat von P kann hier nichtverzichtet werden kann.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 80 / 232
Probabilistische Folgerungsmodelle und -strategien Schlussfolgern uber Unabhangigkeiten
Markov-Graphen – Beispiel
Vier (binare) Variablen A1, A2, A3, A4 mit
P (a1a2a3a4) =
{0.5 wenn a1 = a2 = a3 = a4
0 sonst
Es gelten die folgenden bedingten Unabhangigkeiten:
Ai |= P Aj | {Ak, Al}
Der nach der obigen Idee konstruierte Graph besitzt also gar keine Kanten,besteht folglich aus vier isolierten Knoten. Dies ist jedoch keinUnabhangigkeitsgraph fur P , da die vier Variablen naturlich nichtunabhangig voneinander sind.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 81 / 232
Probabilistische Folgerungsmodelle und -strategien Schlussfolgern uber Unabhangigkeiten
Markov-Decke und Markov-Rand 1/2
Als Markov-Decke (Markov blanket), bl(A), von A ∈ V wird jedeVariablenmenge B ⊆ V bezeichnet, fur die gilt:
A |= P [V − (B ∪ {A})] | B
Ein Markov-Rand (Markov boundary), br(A), von A ist eine minimaleMarkov-Decke von A.
Da trivialerweise A |= P ∅ | (V − {A}) gilt, ist die Existenz vonMarkov-Decken und damit auch von Markov-Randern gesichert.
Fur strikt positive Verteilungen besitzen Markov-Rander eine anschaulichegraphische Interpretation:
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 82 / 232
Probabilistische Folgerungsmodelle und -strategien Schlussfolgern uber Unabhangigkeiten
Markov-Decke und Markov-Rand 2/2
Theorem 2
Ist P eine strikt positive Wahrscheinlichkeitsverteilung, so besitzt jedesElement A ∈ V einen eindeutig bestimmten Markov-Rand br(A), dergerade aus den Nachbarknoten nb(A) von A im Markov-Graphen G0
besteht; es gilt also
A |= P [V − (nb(A) ∪ {A})] | nb(A)lokale Markov-Eigenschaft
Es gilt die folgende Implikationskette:
global Markov⇒ lokal Markov⇒ paarweise Markov
Im Allgemeinen sind die drei Markov-Eigenschaften unterschiedlich, untergewissen Bedingungen (insbesondere fur alle strikt positiven Verteilungen)besteht jedoch Aquivalenz.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 83 / 232
Probabilistische Folgerungsmodelle und -strategien Schlussfolgern uber Unabhangigkeiten
Wichtig: Potentialdarstellungen (→ DVEW)
Sei P eine gemeinsame Verteilung uber den Variablen in V;sei {Wi | 1 ≤ i ≤ p} eine Menge von Teilmengen von V mit⋃pi=1 Wi = V; seien
ψi : {wi | wi ist Vollkonjunktion uber Wi, 1 ≤ i ≤ p} → IR≥0
Funktionen, die jeder Vollkonjunktion von Variablen in Wi (1 ≤ i ≤ p)eine nicht-negative reelle Zahl zuordnen. Gilt nun
P (V) = K ·∏pi=1 ψi(Wi)
so heißt {W1, . . . ,Wp;ψi} eine Potentialdarstellung von P .
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 84 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Ubersicht Kapitel 4 – Probabilistik
4.1 Einfuhrung und Ubersicht
4.2 Wahrscheinlichkeitstheorie und Commonsense Reasoning
4.3 Grundideen probabilistischen Schlussfolgerns
4.4 Schlussfolgern uber Unabhangigkeiten
4.5 Propagation in baumartigen Netzen
4.6 Probabilistische Inferenz auf der Basis optimaler Entropie
4.7 Schlussworte und Zusammenfassung
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 85 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Kapitel 4
4. ProbabilistischeFolgerungsmodelle und -strategien
4.5 Propagation in baumartigen Netzen
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 86 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Propagation in probabilistischen Netzen – Ubersicht
Die Wissenspropagation in probabilistischen Netzen wird realisiert durchUpdate-Regeln, die Belief-Parameter mittels lokaler Kommunikationverandern, so dass sich im Netz ein Gleichgewichtszustand etabliert, derdie posteriori-Wahrscheinlichkeiten korrekt wiedergibt.
Wir werden Wissenspropagation in folgenden Typen probabilistischer Netzebetrachten:
• Ketten und
• Baume.
• (DAG → Bayes-Netze in DVEW)
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 87 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Propagation in prob. Netzen – Basis-Ideen
• Neue Information uber einen Knoten des Netzwerks soll entlang derKanten durch das ganze Netzwerk propagiert werden, so dass sichneue, passende Wahrscheinlichkeiten an den Knoten einstellen.
• Der Update-Prozess soll lokal erfolgen, d.h. jeder Knotenkommuniziert nur mit seinen Nachbarn, mit minimaler externerUberwachung.
• Jeder Knoten wird damit als autonomer, informationsverarbeitenderProzessor betrachtet.
• Strikte Trennung von Bereichs- und Kontrollwissen;
• Der Propagationsprozess verlauft prinzipiell regelbasiert, d.h. unterVerwendung bedingter Wahrscheinlichkeiten.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 88 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Vergleich mit MYCIN 1/2 (s. DVEW)
MYCIN war – wie gewunscht – regelbasiert, und dieInformationsverarbeitung wurde weitgehend entlang der Kanten einesRegelnetzwerkes durch die folgenden Propagationsregeln realisiert:
1 Konjunktion: CF [A ∧B] = min{CF [A],CF [B]}.2 Disjunktion: CF [A ∨B] = max{CF [A],CF [B]}.3 serielle Kombination:
CF [B, {A}] = CF (A→ B) ·max{0,CF [A]}.
4 parallele Kombination: Fur n > 1 ist
CF [B, {A1, . . . , An}] = f(CF [B, {A1, . . . , An−1}],CF [B, {An}]).
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 89 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Beispiel MYCIN (Whlg.)
0.5C
1.0A
-0.5
-0.8
D
B
��
@@B ∧D -0.9
E
@@
��
E ∨ F
F0.8
0.9 H
G
0.3
0.25������3
QQQQQQs
0.25
0.8
0.25 0.225
0.8
0.416
f(0.3 · 0.9, 0.25 · 0.8) = 0.27 + 0.2− 0.27 · 0.2 = 0.416
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 90 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Vergleich mit MYCIN 2/2
Allerdings waren die MYCIN-Regeln evidenzbasiert, d.h. von der Form
Beobachtung → Ursache,
wahrend die Regeln in probabilistischen (z.B. Bayesschen) Netzen meistenskausale Beziehungen der Form
Ursache → Wirkung
kodieren.
Außerdem gibt es zu MYCIN keine klare (probabilistische) Semantik, d.h.,die Bedeutung der Zahlen ist nicht klar.
Evidenz = neue Information im Sinne von: Beobachtung, Indiz, Beweisetc.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 91 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Propagation in prob. Netzen – Probleme 1/5
Wie konnen/sollen Wahrscheinlichkeiten propagiert werden?
Im einfachsten Fall haben wir eine Regel der Form
A→ B,
bei der wir die (bedingten) Wahrscheinlichkeiten P (A) und P (B|A)kennen.
Daraus konnen wir jedoch nicht die Wahrscheinlichkeit von B ableiten, esgilt lediglich
P (B) ≥ P (AB) = P (A)P (B|A).
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 92 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Propagation in prob. Netzen – Probleme 2/5
Ist auch die Wahrscheinlichkeit P (B|A) bekannt, so erhalten wirwenigstens
P (B) = P (B|A)P (A) + P (B|A)P (A),
so dass sich P (B) nun berechnen lasst.
Was passiert jedoch, wenn neue Evidenz e bekannt wird und dieWahrscheinlichkeit P (B|e) berechnet werden soll?
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 93 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Propagation in prob. Netzen – Probleme 3/5
Die Gleichung
P (B|e) = P (B|A, e)P (A|e) + P (B|A, e)P (A|e)
zeigt, dass die gesuchte Wahrscheinlichkeit von einer Fulle andererWahrscheinlichkeiten abhangt, sich also nicht mehr direkt lokal berechnenlasst; sie kann sich zudem drastisch von der ursprunglichenWahrscheinlichkeit unterscheiden.
Damit wird die Information P (B|A) nutzlos – es mussen nicht nur dieKnotenwahrscheinlichkeiten, sondern auch die Kantenwahrscheinlichkeiten(d.h. bedingte Wahrscheinlichkeiten) angepasst werden, was der Idee derlokalen Propagation widerspricht.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 94 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Propagation in prob. Netzen – Probleme 4/5
Ein anderes Problem ist das der ungerechtfertigten verstarkendenRuckkoppelung.
Beispiel 1: Nehmen wir an, Agent A verbreitet ein Gerucht, das erirgendwo aufgeschnappt hat. Nach einigen Tagen erzahlt ihm Agent Bdasselbe Gerucht. Die Frage, ob A nun seinen Glauben in die Richtigkeitdieses Geruchts verstarken soll, hangt entscheidend davon ab, ob B dasGerucht noch aus einer anderen Quelle (unter transitivem Abschluss!)gehort hat oder nicht, lasst sich also nicht lokal entscheiden. ♣
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 95 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Propagation in prob. Netzen – Probleme 5/5
Beispiel 2: Feuer verursacht Rauch, Rauch lasst auf Feuer schließen –beide Evidenzen verstarken den Glauben in die jeweils andere. Einefestimplementierte, lokale positive Verstarkung kann dann dazu fuhren,dass am Ende sowohl Feuer als auch Rauch (unbegrundet) fast sichergeglaubt werden. ♣
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 96 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Propagation in Netzen – Beispiel
A,B,C,D sollen Farbe so wahlen, dass diese verschieden von der allerNachbarknoten ist.
����A����B ����D����C
���
@@@
@@@
���
(a)
Initialer Zustand
����A����B ����D����C
���
@@@
@@@
���
(b)
A – B – C – D
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 97 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Propagation in Netzen – Beispiel (Forts.)
����A����B ����D����C
���
@@@
@@@
���
(c)
A – C – B – DDeadlock!
����A����B ����D����C
���
@@@
@@@
���
(d)
B wechselt Farbe beliebig
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 98 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Propagation in Netzen – Beispiel (Forts.)
����A����B ����D����C
���
@@@
@@@
���
(d)
B wechselt Farbe beliebig
����A����B ����D����C
���
@@@
@@@
���
(e)
globale Losung
Probleme lokaler Propagation bei konfluenten Kanten
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 99 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Kausale Baumnetze
In kausalen Baumnetzen hat jeder Knoten (6= Wurzelknoten) genau einenElternknoten, das Verursacherprinzip ist also klar geregelt.
Jeder Knoten reprasentiert eine mehrwertige Variable.
Notationen:
A,B, . . . ,X, Y, . . . Variablena, b, . . . , x, y, . . . Variablenwerte
a, b, . . . , x, y, . . . (beliebige, aber) fixe Variablenwerte,
fettgedruckte Buchstaben reprasentieren Mengen von Variablen bzw.Vollkonjunktionen.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 100 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Kausale Baumnetze (Forts.)
Zu jeder (gerichteten) Kante
X → Y , X = {x1, . . . , xm}, Y = {y1, . . . , yn}
assoziieren wir eine Matrix M = M(Y |X) mit bedingtenWahrscheinlichkeiten:
M = M(Y |X) =
P (y1|x1) P (y2|x1) . . . P (yn|x1)P (y1|x2) P (y2|x2) . . . P (yn|x2)
......
...P (y1|xm) P (y2|xm) . . . P (yn|xm)
,also M(x,y) = P (y|x) = P (Y = y|X = x), mit Spaltenvektoren My|X undZeilenvektoren MY |x.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 101 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Beispiel Mord
In einem Mordverfahren gibt es 3 Verdachtige, A,B,C, von denen genaueiner definitiv den Mord begangen hat. Auf der Mordwaffe gibt esFingerabdrucke. Wir benutzen folgende Variablen:
X Morder, x1 = A, x2 = B, x3 = C;(letzter Benutzer der Waffe)
Y Person, deren Fingerabdrucke auf der Waffe gefunden wurden,y1 = A, y2 = B, y3 = C;
Z Ergebnis des Labors (Typ des Fingerabdrucks)
Offensichtlich modelliert das folgende Bayessche Netz die korrektenAbhangigkeiten:
X −→ Y −→ Z.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 102 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Beispiel Mord (Forts.)
Wir benotigen die folgenden bedingten Wahrscheinlichkeiten:
• eine 3× 3-Matrix M = M(Y |X) mit
My|x = P (y|x) =
{0.80 wenn x = y, x, y ∈ {A,B,C}0.10 wenn x 6= y x, y ∈ {A,B,C} ;
• sowie eine Matrix M(Z|Y ) mit Mz|y = P (z|y) und∑
zMz|y = 1 fury ∈ {A,B,C}; Mz|y reprasentiert dann die Wahrscheinlichkeit, mitder ein Fingerabdruck vom Verdachtigen y als Ergebnis vom Typ zerscheint.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 103 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Spezifische und virtuelle Evidenz
Wir unterscheiden zwischen spezifischer und virtueller Evidenz:
• Spezifische Evidenz bezieht sich auf die direkte Beobachtung vonVariablen im Netzwerk.
• Virtuelle Evidenz reprasentiert nicht weiter spezifizierteBeobachtungen, die sich auf Variablen außerhalb des Netzwerkesbeziehen, die sich also einer genaueren Spezifikation entziehen.
Virtuelle Evidenzen werden durch Dummy-Knoten mit nur einerAuspragung im Netzwerk dargestellt, die entsprechenden Kantenkonnen nur in einer Richtung benutzt werden.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 104 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Virtuelle Evidenz – Beispiel
Im Mord-Beispiel kann es weder moglich noch sinnvoll sein, alle moglichenFingerabdrucktypen z aufzufuhren.
In diesem Fall wurde man Z durch einen Dummy-Knoten reprasentieren,und die Kante Y → Z wurde die Wahrscheinlichkeit angeben, mit der derFingerabdruck eines der Verdachtigen zu dem Labor-Ergebnis z passt, alsobeispielsweise
P (z|Y ) = (0.80, 0.60, 0.50).
Beachten Sie: Die Wahrscheinlichkeiten mussen sich nicht zu 1aufsummieren, wichtig sind hier nur die Verhaltnisse derWahrscheinlichkeiten!
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 105 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Evidenzen und Belief
Die Konjunktion aller Evidenzen (von spezifischen und virtuellenVariablen) wird durch e angegeben, wobei die Menge aller instantiiertenVariablen manchmal mit E angefuhrt wird.
Die fixen bedingten Wahrscheinlichkeiten an den Kanten werden weiterhinmit P bezeichnet, wahrend die dynamischen, subjektivenWahrscheinlichkeiten unter Informations- bzw. Evidenzeinfluss mit Pbelbezeichnet werden, also beispielsweise
Pbel(x) = P (x|e)
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 106 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Einige Formalia
Die Wahrscheinlichkeiten, mit denen Werte einer Variablen X auftreten,konnen als Vektor angegeben werden:
P (X) = (P (xi))1≤i≤n,
wobei sich die Komponenten des Vektors zu 1 aufsummieren.
Diese Normierung ist fur die Semantik der Wahrscheinlichkeiten außerstwichtig, aber oft reicht es, diese Normierung nur einmal zum Schlussdurchzufuhren. Zu diesem Zweck benutzen wir α als normalisierendeKonstante, z.B.
α(1, 1, 3) = (0.2, 0.2, 0.6) fur α = 0.2.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 107 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Einige Formalia (Forts.)
Das Symbol β wird hier als beliebige Konstante benutzt, also z.B.
P (z|Y ) = (0.80, 0.60, 0.50) = β(0.40, 0.30, 0.25).
Durch den Gebrauch der Symbole α und β lassen sich viele Gleichungenvereinfachen, z.B.
Kβ(xi)i = β(xi)i
αβ(xi)i = α(xi)i
• bezeichnet Skalarprodukt bzw. Matrixprodukt, wahrend juxtaponierteVektoren komponentenweise multipliziert werden:
(1, 2, 3)(3, 2, 1) = (1 · 3, 2 · 2, 3 · 1) = (3, 4, 3)
(1, 2, 3) • (3, 2, 1) = 1 · 3 + 2 · 2 + 3 · 1 = 10.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 108 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Ein ganz einfacher Fall . . .
Der einfachste nicht-triviale Baum besteht aus zwei Knoten und einerKante:
X → Y
gemeinsam mit einer Matrix M(Y |X), die im Knoten Y abgespeichertwird.
Nehmen wir nun an, Y wird instanziiert und liefert Evidenz e : Y = y.
P (x) wird dann aktualisiert zu
Pbel(x) = P (x|e) =P (e|x)P (x)
P (e),
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 109 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Ein ganz einfacher Fall . . . (Forts.)
also Pbel(x) = αP (x)λ(x)
mit α = [P (e)]−1 und λ(x) = P (e|x) = P (y|x);
in Vektorschreibweise gilt dann einfach
Pbel(X) = αP (X)λ(X) mit λ(X) = My|X
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 110 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
. . . und eine Erweiterung
Verlangern wir die Kette etwas:
X → Y → Z
mit der Bayesschen Semantik, d.h. es gilt X |= P Z | Y , und nun werde Zinstanziiert: e : Z = z.
Dann ist zunachst
Pbel(Y ) = αP (Y )λ(Y ) mit λ(Y ) = P (e|Y ) = P (z|Y ) = Mz|Y .
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 111 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
. . . und eine Erweiterung (Forts.)
Es gilt weiterhinPbel(x) = αP (x)λ(x)
mit
λ(x) = P (e|x) =∑y
P (e|y, x)P (y|x)
=∑y
P (e|y)P (y|x) =∑y
P (y|x)λ(y)
alsoλ(X) = M(Y |X) • λ(Y )
Der λ-Vektor von X kann also berechnet werden aus dem λ-Vektor von Yund der Link-Matrix M(Y |X).
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 112 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Informationspropagation in Ketten
Was passiert, wenn Information auch vom anderen Ende der Ketteeintrifft?
Wir betrachten die folgende Kette:
ei → T → U → X → Y → Z → ef
(ei = initiale Evidenz/Ursache, ef = finale Evidenz/Beobachtung)
Sei A ein Knoten, der zwischen ei und ef liegt; der Einfluss der Evidenzenwerde nun durch die folgenden beiden Vektoren kodiert:
λ(A) = P (ef |A) und π(A) = P (A|ei)
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 113 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Informationspropagation in Ketten (Forts.)
Die aktualisierte Wahrscheinlichkeit von A unter beiden Evidenzen lasstsich dann wie folgt berechnen:
Pbel(A) = P (A|ei, ef )
= αP (ef |A, ei)P (A|ei)= αP (ef |A)P (A|ei)= αλ(A)π(A)
Wir haben oben gesehen, dass sich der λ-Vektor eines Knoten ausInformationen seines Kindknoten berechnen lasst; fur den π-Vektor giltAhnliches.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 114 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Informationspropagation in Ketten (Forts.)
Wir betrachten z.B. den Knoten X:
π(X) = P (X|ei)=
∑u
P (X|u, ei)P (u|ei)
=∑u
P (X|u)π(u)
= π(U) •M(X|U)
Der π-Vektor eines Knoten lasst sich also aus dem π-Vektor seinesElternknoten und der zugehorigen Link-Matrix berechnen.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 115 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Informationspropagation in Ketten (Forts.)
Insgesamt ergibt sich also folgendes Bild fur die Propagation vonInformationen innerhalb der Kette:
λ-Vektor Nachricht Kind → Elternπ-Vektor Nachricht Eltern → Kind
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 116 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Beispiel Mord (Forts.)
Unsere Evidenzen seien hier die folgenden:
ef : Z = z finale Evidenz: Fingerabdruck (Laborergebnis)ei initiale Evidenz: Motiv, Alibi, allg. Situation
π(x) = P (x|ei) W’keit(x ist (nach allg. Beweislage) der Morder)π(y) = P (y|ei) W’keit(y’s Fingerabdrucke sind auf der Waffe)λ(y) = P (ef |y) W’keit, dass die gefundenen Fingerabdrucke
von y sind
Wir setzen π(X) = (0.8, 0.1, 0.1) und nehmen an, dass noch keinLaborergebnis uber die Fingerabdrucke vorliegt, d.h. alle Komponentenaller λ-Vektoren sind 1.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 117 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Beispiel Mord (Forts.)
Fur den π-Vektor von Y berechnet man dann:
π(Y ) = π(X) •M(Y |X)
= (0.8, 0.1, 0.1) •
0.8 0.1 0.10.1 0.8 0.10.1 0.1 0.8
= (0.66, 0.17, 0.17)
Nun trifft der Labor-Bericht ein:
λ(Y ) = β(0.8, 0.6, 0.5).
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 118 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Beispiel Mord (Forts.)
Wir aktualisieren P (Y ):
Pbel(Y ) = αλ(Y )π(Y )
= α(0.8, 0.6, 0.5)(0.66, 0.17, 0.17)
= (0.738, 0.143, 0.119)
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 119 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Beispiel Mord (Forts.)
X aktualisiert zunachst mit Hilfe von λ(Y ) seinen λ-Vektor:
λ(X) = M(Y |X) • λ(Y )
= β
0.8 0.1 0.10.1 0.8 0.10.1 0.1 0.8
• 0.8
0.60.5
= β
0.750.610.54
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 120 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Beispiel Mord (Forts.)
Damit ist
Pbel(X) = αλ(X)π(X)
= α(0.75, 0.61, 0.54)(0.8, 0.1, 0.1)
= α(0.6, 0.061, 0.054)
= (0.839, 0.085, 0.076)
Kandidat A ist mit der bei weitem großten Wahrscheinlichkeit der Morder.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 121 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Beispiel Mord (Forts.)
Nehmen wir nun an, der Verdachtige A weise ein handfestes Alibi nach,das seine Taterwahrscheinlichkeit von 0.80 auf 0.28 drastisch reduziert;damit andert sich π(X) = P (X|ei) zu
π(X) = (0.28, 0.36, 0.36).
Diese Anderung gibt X an seinen Kindknoten Y weiter:
π(Y ) = π(X) •M(Y |X)
= (0.28, 0.36, 0.36) •
0.8 0.1 0.10.1 0.8 0.10.1 0.1 0.8
= (0.30, 0.35, 0.35)
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 122 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Beispiel Mord (Forts.)
Die aktualisierte Wahrscheinlichkeit jedes Knoten kann nun lokalberechnet werden:
Pbel(X) = απ(X)λ(X)
= α(0.28, 0.36, 0.36)(0.75, 0.61, 0.54)
= α(0.210, 0.220, 0.194)
= (0.337, 0.352, 0.311)
Pbel(Y ) = απ(Y )λ(Y )
= α(0.30, 0.35, 0.35)(0.8, 0.6, 0.5)
= α(0.240, 0.210, 0.175)
= (0.384, 0.336, 0.280)
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 123 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Beispiel Mord (Forts.)
Pbel(X) = (0.337, 0.352, 0.311) W’keit, dass A,B oder Cder Morder ist;
Pbel(Y ) = (0.384, 0.336, 0.280) W’keit, dass A’s, B’s oder C’sFingerabdrucke auf der Waffe sind.
B ist folglich mit der großten Wahrscheinlichkeit der Morder, obwohl sichauf der Waffe wahrscheinlich A’s Fingerabdrucke befinden. Allerdingsliegen die jeweiligen Wahrscheinlichkeiten bzgl. A und B sehr dichtbeieinander.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 124 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Lokale Propagation in Ketten 1/5
In einer Kette kommuniziert also jeder Knoten lokal mit seinen Nachbarn(jeweils ein Eltern- und Kindknoten) mittels der π- und λ-Nachrichten.
Die Unterteilung in zwei Typen von Nachrichten ermoglicht dieUnterscheidung zwischen kausalem und evidentiellem Einfluss, so dass jedeungerechtfertigte Verstarkung unterbunden wird.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 125 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Lokale Propagation in Ketten 2/5
Wir stellen uns jeden Knoten X als lokalen Prozessor mit einem Λ- undeinem Π-Register vor; dann kann das Verhalten des Prozessors X mitElternknoten U und Kindknoten Y wie folgt beschrieben werden:
Wenn (X → Y )M(Y |X) und Λ(Y ) = λ(Y ),
dann Λ(X) = M(Y |X) • λ(Y ),Wenn (U → X)M(X|U) und Π(U) = π(U),
dann Π(X) = π(U) •M(X|U),Wenn Λ(X) = λ(X) und Π(X) = π(X),
dann Pbel(X) = αλ(X)π(X).
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 126 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Lokale Propagation in Ketten 3/5
BEL(x) = Pbel(x)
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 127 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Lokale Propagation in Ketten 4/5
Bei diesem Modell speichert jeder Knoten die Link-Matrizen M(X|U) undM(Y |X) (von seinem Elternknoten U und zu seinem Kindknoten Y ) undberechnet daraus seine π- und λ-Nachrichten.
Eine effizientere Alternative ist hier das Modell, bei jedem Knoten nur eineMatrix (jede also nur einmal!) zu speichern, und zwar die, die zu seinerElternverbindung gehort.
Jeder Knoten erhalt dann die π-Nachricht seines Elternknoten und seineeigene λ-Nachricht und berechnet seine eigene π-Nachricht (die er an seinKind weiterleitet) und die λ-Nachricht seines Elternknoten (die er anseinen Elternknoten weiterleitet).
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 128 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Lokale Propagation in Ketten 5/5
BEL(x) = Pbel(x)
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 129 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Informationspropagation in Ketten - Summary
• Die notwendige Anderung von Wahrscheinlichkeiten durchKonditionalisierung kann durch lokale Informationsflusse zwischenNachbarknoten realisiert werden.
• Das Problem der ungerechtfertigten Verstarkung wird durchIdentifikation und Trennung von evidentiellen und kausalen Einflussengelost.
• Es ist im Prinzip irrelevant, in welcher ReihenfolgeUpdate-Operationen ausgefuhrt werden – sie mussen nur solange undan allen Knoten ausgefuhrt werden, bis die Kette einenGleichgewichtszustand erreicht hat.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 130 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Informationspropagation in Baumen
Wir wollen nun den Ansatz mit lokalen λ- und π-Nachrichten auf dieBehandlung von Informationspropagation in Baumen verallgemeinern.
Die Idee ist ahnlich, aber Folgendes ist zu beachten, denn jeder Knotenkann nun mehrere Kinder haben:
• Jeder Knoten muss die λ-Nachrichten seiner Kinder kombinieren bzw.fusionieren, um eine Gesamtsicht der aufsteigenden Information zubekommen.
• Jeder Knoten muss geeignete π-Nachrichten an alle seine Kinderverschicken.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 131 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Informationspropagation in Baumen (Forts.)
mU
mWmXmV
mZmY
���
���= ?
ZZZZZZ~
���
���=
ZZZZZZ~
6λX (u)
?πX (u)
��>λY (x) =πY (x) Z
Z} λZ (x)~
πZ (x)
Typische Informationssituation in Baumen
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 132 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Informationspropagation in Baumen (Forts.)
Die Information, die auf einen (inneren) Knoten X in einem Baumeinwirkt, lasst sich aufsplitten in
• Information, die aus dem Teilbaum mit Wurzel X kommt, also imPrinzip uber die Kinder von X aufsteigt; diese Information bzw.Evidenz wird mit e+
X bezeichnet.
• Information, die aus dem Rest des Baumes kommt; diese Informationbzw. Evidenz wird mit e−X bezeichnet.
Fur einen Blattknoten / fur die Wurzel wird e+X / e−X als
Beobachtungswissen / Hintergrundwissen aufgefasst.
Mit eX = e−X , e+X wird die gesamte Information bezeichnet, die auf den
Knoten X einwirkt.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 133 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Informationspropagation in Baumen (Forts.)
Wegen der Unabhangigkeitsbedingungen in Bayesschen Netzen gelten diefolgenden Beziehungen:
• Ist U der Elternknoten von X, so gilt
P (X|U, e−X) = P (X|U)
• Ist V ein Geschwisterknoten von X (also mit gleichem ElternknotenU), so gilt
P (X,V |U) = P (X|U)P (V |U)
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 134 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Informationspropagation in Baumen (Forts.)
Die korrekte aktualisierte Wahrscheinlichkeit Pbel(X) berechnet sich wiefolgt:
Pbel(X) = P (X|e) = P (X|e−X , e+X)
= αP (e+X |e−X , X)P (X|e−X)
= αP (e+X |X)P (X|e−X)
Fur die Berechnung werden also die folgenden beiden Vektoren benotigt:
λ(X) = P (e+X |X) und π(X) = P (X|e−X)
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 135 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Informationspropagation in Baumen (Forts.)
Ahnlich wie bei der Propagation in einfachen Ketten reprasentieren λ- undπ-Nachrichten folgende Typen von Information:
• π(X) stellt kausale oder pradiktive Information dar, die von denNicht-Nachkommen von X kommt und durch den Elternknoten vonX gebundelt wird;
• λ(X) stellt diagnostische oder retrospektivische Information dar, dievon den Nachkommen von X aufgenommen wird und durch dieKinder von X kanalisiert wird.
Pbel(X) = αλ(X)π(X)
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 136 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Informationspropagation in Baumen (Forts.)
Schauen wir uns zunachst die diagnostische Information λ(X) an, wobeiwir (wie im Beispielbaum) annehmen, dass X die beiden Kinder Y und Zhat:
λ(X) = P (e+X |X)
= P (e+Y , e
+Z |X)
= P (e+Y |X)︸ ︷︷ ︸
λY (X)
P (e+Z |X)︸ ︷︷ ︸
λZ(X)
.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 137 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Informationspropagation in Baumen (Forts.)
Also gilt fur die diagnostische Information, die am Knoten X ankommt
λ(X) = λY (X)λZ(X),
oder allgemeiner, fur alle Kinder Y1, . . . , Yk von X:
λ(X) =k∏i=1
λYi(X)
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 138 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Beispiel Mord (Forts.)
Wir erweitern unser Mord-Beispiel auf der evidentiellen Seite, indem wirden Fingerabdruck-Befund eines zweiten, unabhangigen Labors zusatzlichberucksichtigen:
λZ1(Y ) = β(0.80, 0.60, 0.50)
λZ2(Y ) = β(0.30, 0.50, 0.90)
Insgesamt wurde Y also die λ-Information
λ(Y ) = β(0.80, 0.60, 0.50)(0.30, 0.50, 0.90) = β(0.24, 0.30, 0.45)
erhalten.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 139 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Beispiel Mord (Forts.)
Kombinieren wir dies mit der letzten kausalen Informationπ(Y ) = (0.30, 0.35, 0.35), so erhalten wir die folgende aktualisierteWahrscheinlichkeit fur Y :
Pbel(Y ) = α(0.24, 0.30, 0.45)(0.30, 0.35, 0.35)
= α(0.072, 0.105, 0.1575)
= (0.215, 0.314, 0.471)
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 140 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Beispiel Mord (Forts.)
Was wurde passieren, wenn der Verdachtige B nun auf einmal gesteht,dass er als Letzter die Waffe in der Hand gehalten hat, dass also seineFingerabdrucke auf der Waffe zu finden sein mussten?
Wir behandeln dies als ein drittes Beweisstuck zur Frage derFingerabdrucke:
λZ3(Y ) = (0, 1, 0).
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 141 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Beispiel Mord (Forts.)
Insgesamt ergibt sich also fur die λ-Nachricht
λ(Y ) = β(0.80, 0.60, 0.50)(0.30, 0.50, 0.90)(0, 1, 0)
= β(0, 0.30, 0),
und fur die aktualisierte Wahrscheinlichkeit
Pbel(Y ) = α(0, 0.30, 0)(0.30, 0.35, 0.35)
= α(0, 0.105, 0)
= (0, 1, 0).
Die starke Information des Gestandnisses von B uberschreibt also dieschwacheren Informationen der Laborbefunde vollstandig.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 142 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Informationspropagation in Baumen (Forts.)
Nachdem der λ-Vektor von X bestimmt worden ist, muss nun noch derπ-Vektor des Knoten X berechnet werden:
π(X) = P (X|e−X)
=∑u
P (X|e−X , u)P (u|e−X)
=∑u
P (X|u)P (u|e−X)︸ ︷︷ ︸πX(u)
,
also
π(X) =∑
u P (X|u)πX(u) = πX(U) •M(X|U)
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 143 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Informationspropagation in Baumen (Forts.)
Damit ergibt sich insgesamt die aktualisierte Wahrscheinlichkeit einesKnoten X mit Elternknoten U und Kindknoten Y1, . . . , Yn wie folgt:
Pbel(X) = α
k∏i=1
λYi(X)︸ ︷︷ ︸λ(X)
∑u
P (X|u)πX(u)︸ ︷︷ ︸π(X)
mit
λYi(X) = P (e+Yi|X)
πX(U) = P (U |e−X)
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 144 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Informationspropagation in Baumen (Forts.)
Nachdem Knoten X seine eigene Wahrscheinlichkeit aktualisiert hat,mussen nun noch seine eigenen π- und λ-Nachrichten, die er an seineKinder bzw. seinen Elternknoten schickt, berechnet werden.
Fur die λ-Nachricht gilt:
λX(U) = P (e+X |U) =
∑x
P (e+X |U, x)P (x|U)
=∑x
P (e+X |x)P (x|U)
=∑x
λ(x)P (x|U)
= M(X|U) • λ(X)
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 145 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Informationspropagation in Baumen (Forts.)
An einen Kindknoten Y schickt X die folgenden Nachricht:
πY (X) = P (X|e−Y ) = P (X|e−X , e+Z )
= αP (e+Z |X, e
−X)P (X|e−X)
= αP (e+Z |X)P (X|e−X)
= αλZ(X)π(X);
Bei mehreren Kindknoten Yi gilt
πYi(X) = α∏j 6=i
λYj (X)π(X)
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 146 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Informationspropagation in Baumen (Forts.)
Ein Vergleich mit der Gleichung fur Pbel(X) liefert direkt
πY (X) = αPbel(X)
λY (X)
fur einen Kindknoten Y von X.
Anstatt also X fur jeden Knoten einen gesonderten λ-Wert berechnen zulassen, ist es effizienter, X an alle seine Kinder den aktualisierten WertPbel(X) schicken zu lassen und erst in den Kindknoten die notigenπY -Werte als Quotient von Pbel(X) und der eigenen λ-Nachricht an X zuberechnen.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 147 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Informationspropagation in Baumen – Summary 1/5
Wir fassen die einzelnen Aktivitaten der Informationspropagation, die eintypischer Knoten X mit k Kindknoten Y1, . . . , Yk und Elternknoten U zuleisten hat, zusammen:
Es mussen folgende Parameter in X zur Verfugung stehen:
• die kausale Information πX(U) = P (U |e−X) vom Elternknoten U ;
• die diagnostische Informationen λYi(X) = P (e+Yi|X) der Kindknoten
Y1, . . . , Yk;
• die Link-Matrix M(X|U).
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 148 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Informationspropagation in Baumen – Summary 2/5
Schritt 1: Belief updatingberechnet die aktualisierte Wahrscheinlichkeit von X:
Pbel(X) = αλ(X)π(X)
mit
• λ(X) =∏ki=1 λYi(X);
• π(X) = πX(U) •M(X|U) =∑
u P (X|u)πX(u).
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 149 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Informationspropagation in Baumen – Summary 3/5
Schritt 2: Bottom up-Propagationberechnet die λ-Nachricht fur den Elternknoten U :
λX(U) = M(X|U) • λ(X) =∑x
λ(x)P (x|U)
Schritt 3: Top down-Propagationberechnet die π-Nachrichten zu den Kindern:
πYi(X) = απ(X)∏j 6=i
λYj (X)
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 150 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Informationspropagation in Baumen (Forts.)
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 151 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Informationspropagation in Baumen – Summary 4/5
Alle Parameter behalten die ursprungliche probabilistische Interpretation:
λX(U) = P (e+X |U)
πY (X) = P (X|e−Y )
Pbel(X) = P (X|e−X , e+X)
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 152 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Informationspropagation in Baumen – Summary 5/5
Die Informationspropagation kann in beliebiger Reihenfolge durchgefuhrtwerden, bis sich ein Gleichgewichtszustand eingestellt hat; folgendeKnoten nehmen dabei besondere Rollen wahr:
• ein antizipatorischer Knoten ist ein Blatt, das noch nicht instanziiertwurde; hier ist Pbel = π und λ = (1, . . . , 1);
• ein Evidenzknoten ist ein instanziierter Blattknoten X = xj ; wirsetzen dann λ(X) = (0, . . . , 1, . . . , 0) (1 an j-ter Stelle);
• ein Dummy-Knoten reprasentiert virtuelle Evidenz fur einen(Eltern)Knoten X; wir setzen λDummy(X) = βP (Beobachtung |X);
• fur den Wurzelknoten entspricht π(root) der priori-Wahrscheinlichkeitder Wurzel-Variablen.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 153 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Informationsflusse in Baumen 1/5
eee e
eee ee
,,
ll
��
@@
%%@@
(a)
eee e
eee ee
b b,,
ll
��
@@
%%@@
##
(b)
Data
Data
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 154 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Informationsflusse in Baumen 2/5
eee e
eee ee
b b,,
ll
��
@@
%%@@
##
(b)
Data
Data
eee e
eee ee
rb rbb b,,
ll
��
@@
%%@@
(c)
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 155 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Informationsflusse in Baumen 3/5
eee e
eee ee
rb rbb b,,
ll
��
@@
%%@@
(c)
rb rb
rbrb
eee e
eee ee
,,
ll
��
@@
%%@@
(d)
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 156 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Informationsflusse in Baumen 4/5
rb rb
rbrb
eee e
eee ee
,,
ll
��
@@
%%@@
(d)
rbrbrb rbee
e ee
ee ee
,,
ll
��
@@
%%@@
(e)
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 157 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Informationsflusse in Baumen 5/5
rbrbrb rbee
e ee
ee ee
,,
ll
��
@@
%%@@
(e)
rbrb
eee e
eee ee
,,
ll
��
@@
%%@@
(f)
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 158 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Beispiel Mord mit Alibi-Modellierung 1/2
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 159 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Beispiel Mord mit Alibi-Modellierung 2/2
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 160 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Beispiel Betrug
Wir betrachten die folgenden Variablen:
A = {a1, a2} Er/Sie betrugt ja / neinB = {b1, b2} Er/Sie geht mit einer anderen/einem anderen essen
ja / neinC = {c1, c2} Er/Sie wurde im Restaurant mit einer anderen/
einem anderen gesehen ja / neinD = {d1, d2} anderer Mann/andere Frau am Telefon ja / nein
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 161 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Beispiel Betrug (Forts.)
jAP (a1) = .1P (a2) = .9
jBP (b1|a1) = .7P (b2|a1) = .3P (b1|a2) = .2P (b2|a2) = .8
jDP (d1|a1) = .8P (d2|a1) = .2P (d1|a2) = .4P (d2|a2) = .6jC
P (c1|b1) = .4P (c2|b1) = .6P (c1|b2) = .001P (c2|b2) = .999
��
��
��
��
@@@@R
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 162 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Beispiel Betrug (Forts.)
jAπ(A)λ(A)
jBπ(B)λ(B) jD
π(D)λ(D)jC
π(C)λ(C)
����←πB
(A)
λB(A
)→
��
��←πC
(B)
λC(B
)→
@@@@R
πD (A
)→←λD (A
)
Alle priori π- und λ-Nachrichten
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 163 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Beispiel Betrug (Forts.)
jAπ(A) = (.1, .9)λ(A) = (1, 1)P (A) = (.1, .9)
jBπ(B) = (.25, .75)λ(B) = (1, 1)P (B) = (.25, .75) jD
π(D) = (.44, .56)λ(D) = (1, 1)P (D) = (.44, .56)jC
π(C) = (.10075, .89925)λ(C) = (1, 1)P (C) = (.10075, .89925)
����←
(.1,.9)
(1, 1
)→
��
��←(.25, .
75)
(1, 1
)→
@@@@R
(.1, .9)→←
(1, 1)
Startwerte: π(A) = P (A) = (0.1, 0.9), λ(C) = λ(D) = (1, 1)
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 164 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Beispiel Betrug (Forts.)
jAπ(A) = (.1, .9)λ(A) = (.7, .2)P (A|b1) = (.28, .72)
jBπ(B) = (.25, .75)λ(B) = (1, 0)P (B|b1) = (1, 0) jD
π(D) = (.512, .488)λ(D) = (1, 1)P (D|b1) = (.512, .488)jC
π(C) = (.4, .6)λ(C) = (1, 1)P (C|b1) = (.4, .6)
����←
(.1,.9)
(.7,.2)→
��
��←
(1, 0
)
(1, 1
)→
@@@@R
(.28, .72)→
←(1, 1)
Er/Sie war mit einer/einem anderen essen . . .
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 165 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Beispiel Betrug (Forts.)
jAπ(A) = (.1, .9)λ(A) = (.14, .12)P (A|b1, d2) = (.1148, .8852)
jBπ(B) = (.2179, .7821)λ(B) = (1, 0)P (B|b1, d2) = (1, 0) jD
π(D) = (.512, .488)λ(D) = (0, 1)P (D|b1, d2) = (0, 1)jC
π(C) = (.4, .6)λ(C) = (1, 1)P (C|b1, d2) = (.4, .6)
����←(.03
6,0.96
4)
(.7,.2)→
��
��←
(1, 0
)
(1, 1
)→
@@@@R
(.28, .72)→
←(.2, .6)
. . . aber es gab keinen verdachtigen Anruf.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 166 / 232
Probabilistische Folgerungsmodelle und -strategien Propagation in baumartigen Netzen
Propagation in komplexeren Graphen
Der Propagationsmechanismus kann nicht nur benutzt werden, umWahrscheinlichkeiten zu aktualisieren, sondern auch, umWahrscheinlichkeiten von Knoten zu berechnen, wenn nur partielleInformationen uber Eingangsgroßen des Baumes bekannt sind.
Man kann ahnliche Propationsmechanismen auch fur Baume mit mehrerenWurzeln entwerfen.
Dies fuhrt auf das Problem der konfluenten Information und – nochallgemeiner – auf das Problem der Propagation in DAG’s, d.h. inbeliebigen Bayesschen Netzen (s. DVEW).
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 167 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
Ubersicht Kapitel 4 – Probabilistik
4.1 Einfuhrung und Ubersicht
4.2 Wahrscheinlichkeitstheorie und Commonsense Reasoning
4.3 Grundideen probabilistischen Schlussfolgerns
4.4 Schlussfolgern uber Unabhangigkeiten
4.5 Propagation in baumartigen Netzen
4.6 Probabilistische Inferenz auf der Basis optimaler Entropie
4.7 Schlussworte und Zusammenfassung
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 168 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
Kapitel 4
4. ProbabilistischeFolgerungsmodelle und -strategien
4.6 Probabilistische Inferenz auf der Basisoptimaler Entropie
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 169 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
Probabilistisches Wissen
Probabilistische Regeln als Wissensreprasentationsmittel sind gut, weilintuitiv und ausdrucksstark.
Wie schon ware das Leben, wenn man . . .
• . . . nur das (Regel)Wissen angeben konnte, das man selbst furrelevant halt?
• . . . sich nicht um den Aufbau des Netzes kummern musste?
• . . . somit Strukturanderungen in probabilistischen Netzen einfachdurch Hinzunahme oder Weglassen von Regeln vornehmen konnte?
• . . . uberhaupt eine Methodik hatte, die sich um alle lastigentechnischen Details kummern wurde, so dass man sich auf dieWissensmodellierung konzentrieren konnte?
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 170 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
Maximale Entropie (ME)
Unterschiedliche Aspekte der ME -Methodik:
• Einfuhrung, Uberblick und ME -System
• LEG-Netze
• Eigenschaften der ME -Inferenz
• ME -Prinzip und Commonsense Reasoning
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 171 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
Probabilistische Logik
Syntax: L aussagenlogische Sprache (uber Σ)
Lprob = {A[x] | A ∈ L, x ∈ [0, 1]}(L | L)prob = {(B|A)[x] | A,B ∈ L, x ∈ [0, 1]}
Eine Verteilung P erfullt eine probabilistische Regel (B|A) [x],
P |= (B|A) [x] gdw. P (A) > 0 und P (B|A) = x
d.h. probabilistische Regeln werden durch bedingte Wahrscheinlichkeiteninterpretiert, und Wahrscheinlichkeitsverteilungen sind die Modelle (→Semantik) probabilistischer Regeln.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 172 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
Probabilistische Regelbasen
Die Wissensbasis hat also die Form einer Regelmenge
R = {(B1|A1) [x1], . . . , (Bn|An) [xn]}
Im Allgemeinen wird es eine unubersehbar große Zahl von Verteilungengeben, die eine probabilistische Wissensbasis (≈ Menge vonprobabilistischen Constraints)
R = {(B1|A1) [x1], . . . , (Bn|An) [xn]}
erfullen – die durch R spezifizierte Information ist unvollstandig!
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 173 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
Probabilistische Konsequenz-Operation (DVEW)
In Analogie zur klassischen Logik wird die probabilistischeKonsequenz-Operation Cnprob : 2(L|L)prob → 2(L|L)prob definiert durch
Cnprob(R) = {φ ∈ (L | L)prob | P |= φ fur alle P ∈ Mod(R)}
Cnprob erfullt
• Inklusion/Reflexivitat: R ⊆ Cnprob(R);
• Schnitt: R ⊆ S ⊆ Cnprob(R) impliziert Cnprob(S) ⊆ Cnprob(R);
• Monotonie: R ⊆ S impliziert Cnprob(R) ⊆ Cnprob(S)
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 174 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
Probabilistische Auswahl-Inferenz? (DVEW)
• Probabilistisches Schließen auf der Basis aller Modelle (i.e.Verteilungen) ist daher meistens viel zu schwach!
• Gibt es besonders gute Modelle?
• Philosophie: Nimm diejenige Verteilung P ∗ zu nehmen, die nur dasWissen in R und seine probabilistischen Konsequenzen darstellt undsonst keine Information hinzufugt.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 175 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
Der MaxEnt-Ansatz (ME) 1/2
Gegeben: Probabilistische WissensbasisR = {(B1|A1) [x1], . . . , (Bn|An) [xn]};
Gesucht: Diejenige Verteilung P ∗, die nur das Wissenin R und seine probabilistischen Konsequenzen darstelltund sonst keine Information hinzufugt.
Prinzip der maximalen Entropie
Maximiere Unbestimmtheit (d.h. Entropie)
H(P ) = −∑ω
P (ω) log2 P (ω),
gegeben Information R = {(B1|A1) [x1], . . . , (Bn|An) [xn]}
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 176 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
Der MaxEnt-Ansatz (ME) 2/2
Das Optimierungsproblem
(arg) maxP |=R
H(P ) = −∑ω
P (ω) log2 P (ω)
ist eindeutig losbar mit Losung P ∗ = ME (R).
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 177 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
ME-Beispiel – Grippe 1/2 (DVEW)
Die Zusammenhange zwischen
G = Grippe, K = Kranksein und S = KopfSchmerzen
konnten in der folgenden Weise beschrieben sein:
R = {(k|g) [1], (s|g) [0.9], (k|s) [0.8]}
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 178 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
ME-Beispiel – Grippe 2/2 (DVEW)
R = {(k|g) [1], (s|g) [0.9], (k|s) [0.8]}
K G S P ∗ = ME (R)
0 0 0 0.18910 0 1 0.11850 1 0 00 1 1 01 0 0 0.18911 0 1 0.21251 1 0 0.02911 1 1 0.2617
P ∗(k|g) ≈ 0.57 P ∗(k|gs) ≈ 0.64
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 179 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
Das ME-System SPIRIT (DVEW)
• Experte/Benutzer spezifiziert eine Menge probabilistischer Regeln(verfugbares Wissen, im Allgemeinen unvollstandig!)
• ein probabilistisches Netzwerk (sog. LEG-Netzwerk) wird automatischaufgebaut;
• Wahrscheinlichkeiten werden in informationstheoretisch-optimalerWeise (d.h. auf der Basis des ME-Prinzips) aufgebaut;
• LEG-Netzwerk (Cliquen zusammen mit lokalen Randverteilungen)wird als Wissensbasis zur Wissenspropagation und zur Beantwortungvon Anfragen genutzt.
http://www.fernuni-hagen.de/BWLOR/spirit/index.php
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 180 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
ME-Wissenspropagation in SPIRIT
• SPIRIT erzeugt aus der Menge R einen Hypergraphen; zu diesemZweck werden alle Variablen, die in einer Regel in R vorkommen,durch eine Hyperkante verbunden.
• Der entstandene Hypergraph wird dann durch einen Hyperbaum〈V, C〉 uberdeckt.
• Der zugehorige Verbindungsbaum mit der Knotenmenge C und derSeparatorenmenge S stellt schließlich die passende Struktur furReprasentation und Propagation dar; es gilt namlich
P ∗(ω) =
∏C∈C P
∗(C)∏S∈S P
∗(S)
Potentialdarstellung der ME -Verteilung
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 181 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
SPIRIT – BeispielDie Menge der Regeln R uber den Variablen A,B,C,D,E sei diefolgende:
R : (C|E) [0.8] (A|¬B ∧ C) [0.1](C|¬E) [0.4] (B|D ∧ E) [0.9]
(D|E) [0.7] (B|¬D ∧ ¬E) [0.2]
Der zugehorige Hypergraph:
D
B
E
A
C
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 182 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
LEG-Netzwerke 1/4
LEG = Local Event Group
Sei V eine Menge von Aussagevariablen, und W1, . . . ,Wm eine Mengeuberdeckender Teilmengen von V, d.h. Wi ⊆ V, 1 ≤ i ≤ m, mit∪mi=1Wi = V. Sei Pi eine Wahrscheinlichkeitsverteilung auf Wi,1 ≤ i ≤ m.
(Wi, Pi)mi=1 heißt LEG-Netzwerk, wenn es eine Verteilung P auf V gibt
mitP (Wi) = Pi(Wi)
die Pi also alle Randverteilungen einer gemeinsamen Verteilung P sind.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 183 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
LEG-Netzwerke 2/4
Ist ein solches System (Wi, Pi)mi=1 von lokalen Verteilungen gegeben, so
stellt sich die Frage, ob es sich dabei um ein LEG-Netzwerk handelt, d.h.ob es eine gemeinsame Verteilung P auf V gibt, so dass sich alle Pi alsRandverteilung von P realisieren lassen.
Denn nur in diesem Fall hat man die Moglichkeit, die lokalen Verteilungenals globale Information zu nutzen!
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 184 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
LEG-Netzwerke 3/4
Eine notwendige Bedingung fur ein LEG-Netzwerk ist sicherlich diefolgende Konsistenz-Bedingung:
Ist Wi ∩Wj 6= ∅, so ist Pi(Wi ∩Wj) = Pj(Wi ∩Wj).
D.h. auf den Schnitten stimmen alle Verteilungen uberein.
Allerdings – die Konsistenz-Bedingung ist nicht hinreichend! D.h. selbstwenn die Wahrscheinlichkeiten auf allen Schnitten ubereinstimmen, musses nicht zwangslaufig eine globale gemeinsame Verteilung geben!
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 185 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
LEG-Netzwerke – Beispiel 1/2
Sei V = {A,B,C},seien W1 = {A,B},W2 = {A,C},W3 = {B,C},
und seien die lokalen Verteilungen Pi wie folgt gegeben:
w1 P1(w1) w2 P2(w2) w3 P3(w3)
ab 0.6 ac 0.0 bc 0.1
ab 0.2 ac 0.8 bc 0.5
ab 0.0 ac 0.2 bc 0.1
ab 0.2 a c 0.0 bc 0.3
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 186 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
LEG-Netzwerke – Beispiel 2/2
Uberprufung der Konsistenz-Bedingung:
W1 ∩W2 = {A} : P1(a) = 0.8 = P2(a)
W1 ∩W3 = {B} : P1(b) = 0.6 = P3(b)
W2 ∩W3 = {C} : P2(c) = 0.2 = P3(c)
Angenommen, es gibt ein P mit P (Wi) = Pi(Wi); dann gilt:
0 = P2(ac) = P (abc) + P (abc), d.h. P (abc) = P (abc) = 0;
0 = P1(ab) = P (abc) + P (abc), d.h. P (abc) = P (abc) = 0;
also P (bc) = P (abc) + P (abc) = 0,
aber P (bc) = P3(bc) = 0.1 6= 0.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 187 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
LEG-Netzwerke 4/4
Eine hinreichende Bedingung fur ein LEG-Netzwerk ist gegeben, wenn die(Wi)i eine Art Baum bilden; in diesem Fall berechnet sich die gemeinsameVerteilung als Potentialdarstellung aus den lokalen Verteilungen.
Wir werden uns also nun mit Hypergraphen und Hyperbaumenbeschaftigen.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 188 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
Hypergraphen 1/4
V (endliche) Menge von KnotenE = {E1, . . . ,Em}, ∅ 6= Ei ⊆ V, 1 ≤ i ≤ m
(endliche) Menge nichtleerer Teilmengen von V mit
V =
m⋃i=1
Ei
Dann heißt H = 〈V, E〉 Hypergraph und die Elemente von E werden alsHyperkanten bezeichnet.
Ein Hypergraph heißt reduziert, wenn keine Hyperkante echt in eineranderen Hyperkante enthalten ist.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 189 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
Beispiel Hypergraph
D
B
E
A
C
Wir betrachten den obigen Hypergraphen mit der KnotenmengeV = {A,B,C,D,E} mit den HyperkantenE = {{A,B,C}, {B,D,E}, {C,E}, {D,E}}. Dieser Hypergraph ist nichtreduziert, da die Hyperkante {D,E} in der Hyperkante {B,D,E}enthalten ist.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 190 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
Hypergraphen 2/4
Der einem Hypergraphen H = 〈V, E〉 zugeordnete VerbindungsgraphJ(H) ist ein ungerichteter Graph mit den Hyperkanten E als Knoten. Zweisolche Knoten sind genau dann durch eine Kante verbunden, wenn derSchnitt der zugehorigen Hyperkanten nichtleer ist.
Die Schnitte der Hyperkanten werden wieder als Separatoren bezeichnetund an den Kanten notiert.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 191 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
Hypergraphen 3/4
Ein Hypergraph H = 〈V, E〉 heißt Hyperbaum, wenn es eine (lineare)Anordnung E1,E2, . . . ,Em seiner Hyperkanten gibt, die die RIP1 besitzt:
Ei ∩ (E1 ∪ . . . ∪Ei−1) ⊆ Ej , j < i.
Bei der Uberprufung der Baumeigenschaft eines Hypergraphen H = 〈V, E〉kann man sich auf Anordnungen beschranken, die durch eine Variante dermaximum cardinality search entstanden sind.
1RIP = Running Intersection PropertyG. Kern-Isberner (TU Dortmund) Commonsense Reasoning 192 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
Hypergraphen 4/4
Maximum Cardinality Search (MCS) fur Hypergraphen:
• Man ordnet einer beliebigen Hyperkante E ∈ E den Index 1 zu undnummeriert die Knoten in E in beliebiger, aufsteigender Reihenfolge.
• Als nachste Hyperkante wahlt man nun sukzessive jeweils einederjenigen Hyperkanten aus, die eine Maximalzahl bereitsnummerierter Knoten enthalt. Die noch nicht nummerierten Knotender neuen Hyperkante werden weiter in aufsteigender Reihenfolgenummeriert.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 193 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
Testen auf Hyperbaum-Eigenschaft
Proposition
Ein Hypergraph H = 〈V, E〉 ist genau dann ein Hyperbaum, wennirgendeine MCS-Nummerierung der Hyperkanten von H die RIP besitzt.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 194 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
Beispiel Hypergraph (Forts.)
Wir wenden die maximum cardinality search auf unseren Hypergraphen anund erhalten (z.B.) die folgende Anordnung der Hyperkanten:
E1 = {A,B,C}, E2 = {B,D,E}, E3 = {D,E}, E4 = {C,E}
wobei die Knoten dem Alphabet entsprechend geordnet werden:A < B < C < D < E. Diese Ordnung besitzt nicht die RIP, da
E4 ∩ (E1 ∪E2 ∪E3) = {C,E}
in keiner der Hyperkanten E1,E2,E3 enthalten ist. Unser Hypergraph istalso kein Hyperbaum.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 195 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
Schnittgraph
Der Schnittgraph eines Hypergraphen H = 〈V, E〉 ist der Graph
Hs = 〈V, Es〉
mit(v, w) ∈ Es gdw. ∃ E ∈ E mit v, w ∈ E
Zwei Knoten aus V werden im Schnittgraphen Hs also genau dann durcheine (normale) Kante verbunden, wenn es eine Hyperkante von H gibt, inder beide liegen.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 196 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
Vom Hypergraph zum Hyperbaum 1/2
Aus einem beliebigen Hypergraphen H = 〈V, E〉 kann man durch eineFill-in-Technik einen uberdeckenden Hyperbaum H′ = 〈V, E ′〉 gewinnen,d.h. jede Hyperkante E ∈ E ist Teilmenge einer Hyperkante E′ ∈ E ′:
• Bilde den Schnittgraph Hs von H;
• die Knoten in V werden durch eine MCS (im Hypergraphen)aufsteigend geordnet;
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 197 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
Vom Hypergraph zum Hyperbaum 2/2
• der Schnittgraph wird durch Einfugen von Kanten zu einemFill-in-Graphen aufgefullt wie folgt: Fur jeden Knoten vj verbindetman die Menge
{vi | (vi, vj) ∈ Es, i < j}
aller “kleineren” Nachbarn zu einem vollstandigen Graphen;
• bestimme die Cliquen C1, . . . ,Cq des Fill-in-Graphen von Hs;• dann ist H′ = 〈V, {C1, . . . ,Cq}〉 ein uberdeckender Hyperbaum zuH.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 198 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
Beispiel Hypergraph (Forts.)
Wir setzen unser Beispiel fort und gehen von der alphabetischen Ordnungder Knoten A,B,C,D,E aus. Die kleineren Nachbarn der Knoten sind
Knoten kleinere Nachbarn
A −−B AC A,BD BE B,C,D
Um den Schnittgraphen zu vervollstandigen, muss also noch die Kante(C,D) eingefugt werden. Ein uberdeckender Hyperbaum zu H ist dannH′ = 〈V, {{A,B,C}, {B,C,D,E}}〉.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 199 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
Beispiel Hypergraph (Forts.)
(a)
D s
B s
Es
CsAs
���@@@
@@@@@@
(b)
D s
B s
Es
CsAs
���@@@
@@@@@@
������
Schnittgraph Hs (a) und Fill-in-Graph (b) zum Hypergraphen
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 200 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
ME-Implementierung
Das qualitative (graphische) Gerust einer ME -Verteilung wird also mitHilfe ahnlicher Verfahren wie bei Bayes-Netzen aufgebaut.
Die probabilistische Informationspropagation ist vom Prinzip her auchahnlich – entlang der Hyperbaumstruktur und uber die Separatoren.
Allerdings wird die ME -Verteilung durch ein (in der Regel) approximativesVerfahren berechnet, bei dem Wahrscheinlichkeiten resultieren, die nichtmehr einfach nachvollziehbar sind (s. auch Grippe-Beispiel).
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 201 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
ME-Verteilung – Beispiel
Nehmen wir an, unser Wissen besteht nur aus einer Regel:
R = {(B|A)[0.8]}
uber der Signatur Σ = {A,B};
wir berechnen – mit Hilfe von SPIRIT – die Verteilung ME (R) = P :
ω P (ω) ω P (ω)
AB 0.361 AB 0.274
AB 0.091 AB 0.274
Fur A,B ergeben sich die Wahrscheinlichkeiten:
P (A) = 0.452, P (B) = 0.636
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 202 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
ME-Inferenz
Praktisches Arbeiten mit der ME -Methodik ist also einfach moglich, aberdas Verfahren wirkt intransparent.
Logische und formale Ansatze ermoglichen einen klareren Blick auf dieME -Methodik.
Logisch gestattet die ME -Methodik eine probabilistische Auswahl-Inferenz:
CME(R) = {φ ∈ (L | L)prob | ME (R) |= φ}
d.h. aus einer probabilistischen Regelbasis werden alle (bedingten)probabilistischen Formeln abgeleitet, die in der zugehorigen ME -Verteilungerfullt sind.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 203 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
ME-Beispiel – Grippe (Forts.)
R = {(k|g) [1], (s|g) [0.9], (k|s) [0.8]}
K G S P ∗ = ME (R)
0 0 0 0.18910 0 1 0.11850 1 0 00 1 1 01 0 0 0.18911 0 1 0.21251 1 0 0.02911 1 1 0.2617
P ∗(k|g) ≈ 0.57, P ∗(k|gs) ≈ 0.64⇒
CME(R) 3 (k|g)[0.57], (k|gs)[0.64], (s|g) [0.9], (kgs)[0.2125], . . .
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 204 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
Eigenschaften der ME-Inferenz
Der ME -Inferenzoperator CME erfullt die folgenden Eigenschaften:
• Inklusion/Reflexivitat: R ⊆ CME(R).
• Kumulativitat, d.h. Schnitt und vorsichtige Monotonie:
R ⊆ S ⊆ CME(R) impliziert CME(R) = CME(S)
• Supraklassizitat, d.h. es gilt: Cnprob(R) ⊆ CME(R)
• Loop: Sind R1, . . . ,Rm ⊆ (L | L)prob mit Ri+1 ⊆ CME(Ri),i modulo m, dann gilt
CME(Ri) = CME(Rj) fur alle i, j = 1, . . . ,m
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 205 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
ME-Verteilung unter der Lupe
Fur R = {(B1|A1) [x1], . . . , (Bn|An) [xn]} erhalten wir
ME (R)(ω) = α0
∏1≤i≤n
ω|=AiBi
α1−xii
∏1≤i≤n
ω|=AiBi
α−xii
mit αi =xi
1− xi
∑ω|=AiBi
∏j 6=i
ω|=AjBj
α1−xj
j
∏j 6=i
ω|=AjBj
α−xj
j
∑ω|=AiBi
∏j 6=i
ω|=AjBj
α1−xj
j
∏j 6=i
ω|=AjBj
α−xj
j
,
und αi
> 0 : xi ∈ (0, 1)=∞ : xi = 1= 0 : xi = 0
, 1 ≤ i ≤ n.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 206 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
ME-Ableitungsregeln
Wir wollen im Folgenden fur (wichtige) Spezialfalle ME -Inferenzen“berechnen” und Ableitungsregeln aufstellen; dabei benutzen wir diefolgende Notation
R : (B1|A1) [x1], . . . , (Bn|An) [xn]
(B∗1 |A∗1) [x∗1], . . . , (B∗m|A∗m) [x∗m]
genau dann, wenn
R = {(B1|A1) [x1], . . . , (Bn|An) [xn]}und ME (R) |= {(B∗1 |A∗1) [x∗1], . . . (B∗m|A∗m) [x∗m]}
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 207 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
ME-Ableitungsregeln (Forts.)
Mit Hilfe der obigen Formel lassen sich z.B. folgende Ableitungsregelnbeweisen:
Transitive Verkettung
R : (B|A)[x1], (C|B)[x2]
(C|A)[1
2(2x1x2 + 1− x1)]
Beispiel: A jung sein, B Single sein, C Kinder haben
R = {(B|A)[0.9], (C|B)[0.85]}.
Mit der Transitiven Verkettung errechnet man als ME -Folgerung
(C|A)[0.815] ♣
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 208 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
Transitive Verkettung – Beweis
R : (B|A)[x1], (C|B)[x2]
(C|A)[1
2(2x1x2 + 1− x1)]
Die ME-Verteilung P ∗ = ME (R),R = {(B|A)[x1], (C|B)[x2]}, kann wiefolgt berechnet werden:
ω P ∗ ω P ∗
ABC α0α1−x11 α1−x2
2 ABC α0α1−x22
ABC α0α1−x11 α−x22 ABC α0α
−x22
ABC α0α−x11 ABC α0
ABC α0α−x11 ABC α0
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 209 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
Transitive Verkettung – Beweis (Forts.)
mit
α1 =x1
1− x1
2
α1−x22 + α−x22
=x1
1− x1αx22
2
α2 + 1
α2 =x2
1− x2
Damit berechnet man
P ∗(C|A) =P ∗(AC)
P ∗(A)
=P ∗(ABC) + P ∗(ABC)
P ∗(ABC) + P ∗(ABC) + P ∗(ABC) + P ∗(ABC)
=α1α
1−x22 + 1
α1α−x22 (α2 + 1) + 2
=1
2(2x1x2 + 1− x1)
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 210 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
ME-Ableitungsregeln (Forts.)
Vorsichtige Monotonie
R : (B|A)[x1], (C|A)[x2]
(C|AB)[x2]
Beispiel: A Student sein, B jung sein, C Single sein
R = {(B|A)[0.9], (C|A)[0.8]}
Mit der vorsichtigen Monotonie folgt dann
(C|AB)[0.8] ♣
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 211 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
ME-Ableitungsregeln (Forts.)
Schnitt
R : (C|AB)[x1], (B|A)[x2]
(C|A)[1
2(2x1x2 + 1− x2)]
Beispiel: A Student sein, B jung sein, C Single sein
R = {(C|AB)[0.8], (B|A)[0.9]}
Mit der Schnittregel folgt dann
(C|A)[0.77] ♣
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 212 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
ME und Commonsense Reasoning
Was hat ME mit Commonsense Reasoning zu tun?
Jeff Paris:Common sense and maximum entropy.Synthese 117, 75-93, 1999, Kluwer Academic Publishers
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 213 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
Symmetrie-Prinzip
Eines der grundlegendsten und einfachsten Prinzipien des CommonsenseReasoning ist das
Symmetrie-Prinzip
(Wesentlich) Ahnliche Probleme haben (im Wesentlichen) ahnlicheLosungen. (B. van Fraassen, 1989)
• Welche Ahnlichkeit ist hier gemeint?
• Was ist denn uberhaupt das Problem?
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 214 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
Intelligente Agenten in probabilistischer Umgebung
Nehmen wir an,
• der Agent kann sein (d.h. alles(!) relevante) Wissen in Form einerprobabilistischen Regelbasis ausdrucken, und
• er ist in der Lage, sein Wissen korrekt und optimal zu verarbeiten,
dann kann er zu jeder Anfrage φ eine passende Wahrscheinlichkeitproduzieren.
Wir wollen also den Agenten als einen Inferenzprozess N modellieren, derzu jeder Menge R von probabilistischen Regeln eineWahrscheinlichkeitsverteilung produziert.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 215 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
Probabilistischer Inferenzprozess 1/2
Σ = {A1, . . . , An} Alphabet,d.h. Menge von (binaren) Aussagenvariablen
Form(Σ) Menge der Formeln uber ΣP(Σ) Menge aller Wahrscheinlichkeitsverteilungen
uber Σ, d.h.
P(Σ) = {(p1, . . . , p2n) | pi ≥ 0,2n∑i=1
pi = 1}
KB(Σ) Menge aller konsistenten probabilistischen Regelbasen uber Σ
Ist Σ1 ⊆ Σ2, so ist auch KB(Σ1) ⊆ KB(Σ2).
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 216 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
Probabilistischer Inferenzprozess 2/2
Definition 3 (Probabilistischer Inferenzprozess)
Ein probabilistischer Inferenzprozess NΣ ist eine Abbildung
NΣ : KB(Σ) → P(Σ),
R 7→ P,
die jeder konsistenten Regelbasis uber Σ eine Verteilung P uber Σzuordnet mit P |= R.
NΣ spezifiziert also einen induktiven Inferenzprozess.Welche CR-Prinzipien zeichnen einen “guten” Inferenzprozess aus?
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 217 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
CR-Prinzip 1: Irrelevante Information
Irrelevante-Information-Prinzip
Information uber ganz andere Themenbereiche soll das Ergebnis desInferenzprozesses nicht beeinflussen.
Seien Σ1,Σ2 zwei disjunkte Signaturen, Σ1 ∩ Σ2 = ∅, und seienR1 ∈ KB(Σ1),R2 ∈ KB(Σ2). Fur alle φ ∈ Form(Σ1) soll dann gelten:
NΣ1(R1)(φ) = NΣ1∪Σ2(R1 ∪R2)(φ).
Das Ergebnis der Inferenz soll also nur vom relevanten Teil der Signaturabhangen. Wir schreiben daher im Folgenden haufig N statt NΣ.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 218 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
CR-Prinzip 2: Semantische Aquivalenz
Aquivalenz-Prinzip
Haben zwei Wissensbasen exakt die gleiche (semantische) Bedeutung, sosoll auch exakt das Gleiche gefolgert werden.
Beschreiben R1,R2 ∈ KB(Σ) denselben Losungsraum in P(Σ), so sollgelten N(R1) = N(R2).
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 219 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
CR-Prinzip 3: Umbenennung
Umbenennungs-Prinzip
Eine isomorphe Umbennung der Variablen in der Wissensbasis soll keinenEffekt auf das Ergebnis der Inferenz haben.
Formalisierung: . . .
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 220 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
CR-Prinzip 4: Kontext-Relativierung
Relativierungs-Prinzip
Information, die sich auf die Nichterfullung eines Kontextes bezieht, istirrelevant fur die kontextbezogene Inferenz.
Sei A ∈ Form(Σ), seien R1,R2 ∈ KB(Σ) die folgenden Wissensbasen:
R1 = {A[x], (Bi ∧A)[xi], (Cj ∧ ¬A)[yj ]}i,j ,R2 = {A[x], (Bi ∧A)[xi]}i.
Fur φ ∈ Form(Σ) soll dann gelten:
N(R1)(φ ∧A) = N(R2)(φ ∧A).
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 221 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
CR-Prinzip 5: Hartnackigkeit
Hartnackigkeits-Prinzip
Information, die das bestatigt, was der Agent bereits glaubt, soll dasErgebnis der Inferenz nicht beeinflussen.
Sind R1,R2 ∈ KB(Σ), und erfullt N(R1) bereits R2, so soll gelten:
N(R1) = N(R1 ∪R2).
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 222 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
CR-Prinzip 6: Schwache Unabhangigkeit
Schwaches Unabhangigkeits-Prinzip
Information uber eine echte Alternative soll das Ergebnis der Inferenz nichtbeeinflussen.
Sei Σ = {A,B,C}, und seien R1,R2 ∈ KB(Σ) die folgendenWissensbasen:
R1 = {A[x], B[y]},R2 = {A[x], B[y], C[z], AC[0]}.
Dann soll gelten N(R1)(A ∧B) = N(R2)(A ∧B).
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 223 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
CR-Prinzip 7: Stetigkeit
Stetigkeits-Prinzip
Mikroskopisch kleine Anderungen in der Weltbeschreibung sollen keinemakroskopisch großen Anderungen in den Wahrscheinlichkeitenverursachen.
Fur jedes φ ∈ Form(Σ) hangt N(R)(φ) stetig von denWahrscheinlichkeiten des Faktenwissens in R ab.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 224 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
Haupttheorem
Theorem 4
Jeder Inferenzprozess N , der alle CR-Prinzipien 1-7 erfullt, stimmt mit derME-Inferenz uberein.
Die ME -Methodik erlaubt also optimales Commonsense Reasoning improbabilistischen Bereich und wird durch die CR-Prinzipien 1-7 eindeutigbestimmt.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 225 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
Fazit ME-Methodik 1/2
ME -Rehabilitation
Das MaxEnt-Verfahren ist kein technisches Black-Box-Verfahrenohne Sinn und Logik!
• Die ME -Methodik ermoglicht induktive Inferenz in ihrer allgemeinstenForm: Komplexe Wissenszustande (Wahrscheinlichkeitsverteilungen)konnen aus Information in komplexer Form (Mengen probabilistischerKonditionale) erzeugt werden.
• ME -Inferenz erfullt zahlreiche der Eigenschaften, die man annichtmonotone Inferenzrelationen i.Allg. stellt, z.B. die Kumulativitatund Loop.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 226 / 232
Probabilistische Folgerungsmodelle und -strategien Inferenz und Wissensrevision auf der Basis optimaler Entropie
Fazit ME-Methodik 2/2
• Auch auf der Ebene der Wahrscheinlichkeiten lassen sich einige derInferenzregeln simulieren (z.B. Vorsichtige Monotonie, Schnitt).
• Die ME -Methodik lasst sich als optimale Umsetzung desCommonsense Reasoning in einer probabilistischen Umgebungauffassen.
• Fur die Wissensrevision gibt es einen ebenso hochwertigen “großenBruder”, das Prinzip der minimalen Relativ-Entropie.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 227 / 232
Probabilistische Folgerungsmodelle und -strategien Schlussworte und Zusammenfassung
Ubersicht Kapitel 4 – Probabilistik
4.1 Einfuhrung und Ubersicht
4.2 Wahrscheinlichkeitstheorie und Commonsense Reasoning
4.3 Grundideen probabilistischen Schlussfolgerns
4.4 Schlussfolgern uber Unabhangigkeiten
4.5 Propagation in baumartigen Netzen
4.6 Probabilistische Inferenz auf der Basis optimaler Entropie
4.7 Schlussworte und Zusammenfassung
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 228 / 232
Probabilistische Folgerungsmodelle und -strategien Schlussworte und Zusammenfassung
Kapitel 4
4. ProbabilistischeFolgerungsmodelle und -strategien
4.7 Schlussworte und Zusammenfassung
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 229 / 232
Probabilistische Folgerungsmodelle und -strategien Schlussworte und Zusammenfassung
Zusammenfassung Kapitel 4
• Bedingte Wahrscheinlichkeiten (= Konditionale mitWahrscheinlichkeiten) sind die Reprasentanten generischen Wissensund wichtige Bausteine probabilistischer Netzwerke.
• Auch in gerichteten probabilistischen Netzwerken istWissenspropagation in beiden Richtungen moglich.
• In einfachen probabilistischen Netzwerken (Baumen) ist ein direkterInformationsfluss uber die Kanten moglich.
• In probabilistischen Netzwerken mit konfluenter Information (DAG)oder allgemeinen Abhangigkeiten (LEG-Netze) muss zunachst eineHyperbaum-Struktur aufgebaut werden; der Informationsfluss erfolgtzwischen benachbarten Hyperkanten uber deren Schnitte(Separatoren).
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 230 / 232
Probabilistische Folgerungsmodelle und -strategien Schlussworte und Zusammenfassung
Zusammenfassung Kapitel 4 (Forts.)
• Das Problem unvollstandiger probabilistischer Informationen wird inBayes-Netzen durch klare Spezifikationsvorgaben und die Annahmebedingter Unabhangigkeiten gelost.
• Mit Hilfe der ME-Methodik kann aus einer Menge probabilistischerRegeln (unvollstandige Information!) ohne weitere Annahmen einevollstandige Verteilung aufgebaut werden. Bedingte Unabhangigkeitenentstehen hier aus dem Kontext heraus, werden aber nichtvorausgesetzt.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 231 / 232
Probabilistische Folgerungsmodelle und -strategien Schlussworte und Zusammenfassung
Zusammenfassung Kapitel 4 (Forts.)
• Bayessche Netze modellieren bedingte Unabhangigkeiten, wahrend dieME -Methodik sich auf die konsequente Ausnutzung bedingterAbhangigkeiten konzentriert.
• Die ME -Inferenz ist ein machtige Methode fur die probabilistischeWissensreprasentation mit hervorragenden Eigenschaften.
G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 232 / 232