Induktive Konstruktion von ... - peter- · PDF fileVon Herrn Geibel wird dazu der Begriff der...

Induktive Konstruktion vonmerkmalsbasierten und logischen

Klassifikatoren fur relationale Strukturen

vorgelegt vonDiplom-Informatiker

Peter Geibel

Vom Fachbereich Informatikder Technischen Universitat Berlin

zur Erlangung des akademischen Grades

Doktor der Naturwissenschaften– Dr. rer. nat. –

genehmigte Dissertation

PromotionsausschußVorsitzender: Prof. Dr. S. Jahnichen1. Berichter: Prof. Dr. F. Wysotzki2. Berichter: Prof. Dr. M. M. Richter

Tag der wissenschaftlichen Aussprache: 12. Mai 1999

Berlin 1999

D83

Zum Geleit

Die lernfahige Klassifikation strukturierter Objekte isteines der modernen Teilge-biete des Maschinellen Lernens. Strukturierte Beschreibungen komplexer Objekteenthalten - im Gegensatz zu Merkmalsvektoren einstelligerAttribute - Beschrei-bungen von

”Elementarobjekten“ und ihrer Relationen zueinander. Daraus ergibt

sich die Moglichkeit der Reprasentation solcher Strukturen durch pradikatenlogischeAusdrucke, die dann die Grundlage fur die Induktive Logische Programmierung(ILP) bilden oder durch Graphen bzw. Hypergraphen, deren Knoten durch einstel-lige und deren Kanten durch mehrstellige Attribute interpretiert sind. Hauptanwen-dungen des Maschinellen Lernens bei strukturierten Beschreibungen liegen in demheute sehr aktuellen Gebiet des ”Data Mining”, d.h. dem Auffinden von Gesetzen,kausalen Abhangigkeiten und Regularitaten in großen vomMenschen nicht mehruberschaubaren Mengen strukturierter Daten (z.B. Bilddatenbanken, chemische undProteindatenbanken, Soziogramme).

Grundsatzlich gibt es fur das Klassifizierungs-(Begriffs-) Lernen bei strukturiertenBeschreibungen 2 Moglichkeiten, die sich gewissermaßen im kognitiven Grundprinzipunterscheiden

1. Die Vorgabe oder Konstruktion von Klassenprototypen unddie Klassifikation mitHilfe einer Ahnlichkeits- bzw. Abstandsbestimmung bezuglich der Prototypen(”ganzheitliches Matching”, Grundprinzip des Case Based Reasoning und teilwei-se auch der Induktiven Logischen Programmierung) und

2. Merkmalsbildung uber den strukturierten Beschreibungen und Verwendung vonEntscheidungsbaumlernverfahren bzw. Neuronalen Netzen.Vor allem Entschei-dungsbaumklassifikatoren haben - zumindest beim Diskriminationslernen - ge-genuber dem ganzheitlichen Strukturvergleich eine großere Ausdrucksfahigkeit, dasie das Erlernen von im Prinzip beliebigen Booleschen Funktionen uber den Merk-malen gestatten, wahrend im Fall 1) im wesentlichen nur konjunktive Begriffe aufeffektive Weise gelernt werden konnen.

Die von Herrn Geibel neuentwickelten Verfahren INDIGO und TRITOP, die imZentrum der Arbeit stehen, sind vornehmlich bei 2) anzusiedeln, TRITOP kann aberauch als integriertes Verfahren angesehen werden, das einesinnvolle und ausdrucks-starke Kombination von Entscheidungsbaumlernen und ILP-Methoden darstellt. Vor-aussetzung fur die in der Arbeit beschriebenen Lernverfahren sind Trainingsdatensatzevon strukturierten und klassifizierten Beschreibungen vonKomplexobjekten durch in-terpretierte Graphen, von denen angenommen wird, daß sie alle klassifizierungsrele-vante Information (ggf. nur im statistischen Sinne) enthalten, so daß das bei ILP i.a.notwendige Hintergrundwissen entfallt. Diese Voraussetzung ist bei den meisten rea-len Anwendungen erfullt. Ein weiterer wichtiger Unterschied zu ILP besteht darin, daßbei der (automatischen) Merkmalsbildung bzw. den dazu notwendig zu konstruieren-

vi

den Abbildungen zwischen Teil- oder Untergraphen der Trainingsobjekte nur injektiveMorphismen zugelassen werden, d.h. daß die Knoten, die die elementaren Bestandteiledes strukturierten Objektes reprasentieren (Elementarobjekte), in eineindeutiger Wei-se einander zugeordnet werden mussen. Damit bleibt jede durch den Lerner gebildeteHypothese im Prinzip als Teilstruktur interpretierbar, was gerade fur Zwecke des DataMining wichtig ist. Von Herrn Geibel wird dazu der Begriff der Alpha-Subsumtioneingefuhrt, die eine Einschrankung der in der ILP verwendeten Theta- Subsumtion aufden injektiven Fall darstellt, und es werden eine Reihe von fur die Alpha- Subsumtionund das damit zu behandelnde Klassifizierungsproblem relevanten Satzen bewiesen.

Eine weitere in der Arbeit beschriebene Neuentwicklung istdie im Rahmen desINDIGO- Verfahrens eingefuhrte Moglichkeit des Erlernens kontextabhangiger Klas-sifizierungen von Teilstrukturen von strukturierten Beschreibungen, also gewisserma-ßen der durch den relationalen Kontext definierten Rollen, die Teilobjekte in der Struk-tur spielen. Dazu werden kontextabhangige Komplexmerkmale definiert und automa-tisch generiert. Es besteht hier auch ein enger Bezug zur Anwendung von Relaxations-verfahren bei der Bildinterpretation, bei der Objekte durch Zuhilfenahme ihres Kon-textes identifiziert werden. Dieser Kontext muß bei den klassischen Methoden durchExpertenwissen festgelegt werden, kann hier aber (im Prinzip einschließlich der be-dingten Wahrscheinlichkeiten) gelernt werden.

Das von Herrn Geibel entwickelte Lernverfahren TRITOP gestattet die Konstruk-tion von Entscheidungsbaumen mit Konjunktionen von Pradikaten als Tests, wobeidiese logischen Ausdrucke nicht vordefiniert werden mussen, sondern beim Lernendurch Spezialisierungs- und Generalisierungsoperatorenautomatisch erzeugt werden.Dadurch entfallt auch die Einschrankung auf hochstens zweistellige Attribute, die beiBeschreibungen durch Graphen zunachst einmal gegeben ist. Es handelt sich daher umeine sehr ausdrucksstarke Kombination pradikatenlogisch beschriebener klassifizie-rungrelevanter Teilstrukturen mit der Moglichkeit von Entscheidungsbaumen, beliebi-ge Boolesche Funktionen zu reprasentieren. Dementsprechend erzielten Herrn GeibelsVerfahren auch Spitzenresultate bei der Anwendung auf international fur die lernfahigeStrukturerkennung verwendete Benchmarkdatensatze, z.B. zur kausalen Analyse derbiologischen Wirksamkeit organischer Verbindungen (Mutagenesisdatensatz) und zumoptimalen Entwurf von Netzen nach der Finite-Elemente-Methode bei einem CAD-Problem (Meshdaten). Die Anwendungsprobleme und -resultate werden in der Arbeitausfuhrlich diskutiert.

Die Schlußkapitel enthalten bemerkenswerte Erganzungen. Da Entschei-dungsbaume die Klassen bzw. Subklassen anhand der gelernten relevanten Merkmalenur diskriminieren, aber nicht beschreiben, sind damit i. a. keine Klassenprototypenkonstruierbar, die aber in vielen Fallen aus Grunden der Interpretierbarkeit derErgebnisse (z.B. bei Ursache-Wirkungsanalysen, allgemein beim Entdeckungslernen)erwunscht sind. Das Problem tritt bei der Klassifizierung strukturierter Objekte inverscharfter Form auf, da die im Lernprozeß gebildeten undauf einem Pfad als Testsverwendeten Komplexattribute i.a. nicht die eindeutige Rekonstruktion eines Klassen-bzw. Subklassenprototypen gestatten. Man kann aber das sequentielle Abprufen

vii

der Merkmale, die auf einem Pfad vorkommen, als Generierungvon Constraintsfur die Objekte derjenigen Klasse oder Subklasse auffassen, mit der der Endknotenbezeichnet ist und uber der entsprechenden Teilmenge (Cluster) der Trainingsobjektemit Hilfe von Abstandsmaßen fur den Nutzer dann besser interpretierbare Klassenbzw. Subklassenprototypen bilden. Unter kognitiven Gesichtspunkten hat man eshier mit einer sehr effektiven Kombination von diskriminierenden und ganzheit-lichen Erkennungsverfahren zu tun, die wahrscheinlich auch bei hoheren Formenorganismischer Erkennungsleistungen realisiert ist. Diese Idee wird im Ansatz mitHilfe eines von K. Schadler entwickelten neuronalen WTA-Netzes realisiert, das furdie an den Endknoten eines Baumes auftretenden Trainingsobjekte prototypischeBeschreibungen berechnet, die dann die entsprechende (Sub-) Klasse reprasentieren.Eine weitere Erkundungsuntersuchung, die ebenfalls in dieRichtung interpretier-barer Klassenbeschreibungen geht (und außerdem eine Komplexitatsreduktion desVerarbeitungsprozesses bewirken soll), befaßt sich mit der Zerlegung der Graphender Trainingsmenge in Teile. Problem ist hier die automatische Erzeugung einer andie gegebene Trainingsmenge angepaßten und daruber optimierten Definition vonTeilen, wobei die Zerlegung außerdem moglichst ohne Verlust an Strukturinformationerfolgen soll. Damit wird aber auch ein fur die Wissensreprasentation zentralesThema, die automatisierte und optimierte Definition von Teil-Ganzes-Hierarchienin einem konkreten Anwendungsfall angegangen, was wiederum von Interessefur eine kognitionswissenschaftliche Modellierung von hierarchisch aufgebautenGedachtnisstrukturen sein konnte. Der Bogen der Arbeit spannt sich daher voneiner (soweit uberhaupt moglich) vollstandigen mathematischen Durcharbeitungder neu eingefuhrten Prinzipien uber die Diskussion von Anwendungsergebnissenund -problemen bis hin zu kognitionswissenschaftlich interessanten Interpreta-tionsmoglichkeiten. Herr Geibel hat einzelne Resultate der Arbeit bereits aufinternationalen und nationalen Kongressen publiziert unddafur auch den SchweizerChorafas-Preis erhalten.

Berlin, den 24. Juli 1999 Prof. Dr. Fritz Wysotzki

Danksagung

Die vorliegende Arbeit ist als Dissertation am FachbereichInformatik der TechnischenUniversitat Berlin entstanden. Ich mochte an dieser Stelle allen danken, die zum Erfolgdieser Arbeit beigetragen haben. Ich danke insbesondere Prof. Dr. Fritz Wysotzki furdie fachliche Unterstutzung und fur die Betreuung dieserArbeit. Bei Prof. Dr. MichaelRichter mochte ich mich fur dieUbernahme des Zweitgutachtens bedanken.

Kristina Schadler hat mich durch das Lesen der Arbeit und ihre wertvollen An-merkungen und Anregungen unterstutzt. Dirk Ludtke, Baback Parandian, Brijnesh-Johannes Jain, Michail Popov, Martin Papendick, Mark Muller, Ivonne Kellner, ReneMercy, Robert Junghans, Stefan Fockel, Nicolas Schafer,Jorn-Guy Suß, KonstantineLevit, Andreas Schmidt, Stephan Koch, Marc und Chris Werner, Ronald Nolte undRoland Schultes haben im Rahmen von Diplomarbeiten und studentischen Projek-ten teilweise an der Implementierung der dargestellten Ansatze mitgewirkt und warenwertvolle Diskussionspartner. Ich mochte an dieser Stelle ihnen und all denen danken,die direkt oder indirekt zum Erfolg dieser Arbeit beigetragen haben.

Ganz besonders mochte ich mich bei Hermann Jansen fur seine Geduld undUnterstutzung bedanken.

Berlin, im August 1999 Peter Geibel

Inhaltsverzeichnis

1 Einleitung 11.1 Lernen von relationalen Begriffen . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . 11.2 Ursachen fur die Komplexitat bei relationalen Lernverfahren . . . . . . . . . 21.3 Komplexitatsreduktion durch Propositionalisierung. . . . . . . . . . . . . . . . . 51.4 Erweiterung und Evaluierung von CRS . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.5 Vergleich von logischen und graphentheoretischen Lerntechniken . . . . . 81.6 Entwicklung eines hybriden Lernverfahrens . . . . . . . . . .. . . . . . . . . . . . . 91.7 Generierung von Prototypen . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . 101.8 Komplexitatsreduktion durch Datenreduktion . . . . . . .. . . . . . . . . . . . . . . 101.9 Aufbau der Arbeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . 10

2 Propositionale Lernverfahren 132.1 Einordnung von Verfahren des Begriffslernens . . . . . . . .. . . . . . . . . . . . . 132.2 Bewertung und Vergleich von Klassifikatoren und Lernverfahren . . . . . . 152.3 CAL 2 und CAL 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.3.1 Baumaufbau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . 172.3.2 Vereinfachung von Entscheidungsbaumen . . . . . . . . . .. . . . . . . . 182.3.3 Bewertung von Attributen . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . 202.3.4 Nichtdisjunkte Klassen . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . 21

2.4 ID3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . 222.4.1 Derχ2-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3 Graph- und produktbasierte Verfahren 253.1 Graphbasierte Ansatze . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . 253.2 Lernen mit Produkten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . 28

3.2.1 Lernbarkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . 29

4 CRS – Propositionalisierung von Graphen 324.1 Strukturierte Objekte . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . 344.2 Transformation in Merkmalsvektoren . . . . . . . . . . . . . . . .. . . . . . . . . . . . . 374.3 Kontextbildung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . 414.4 Kontextattribute . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . 434.5 Induktion und Klassifikation . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . 444.6 Kontextabhangige Klassifikation von Knoten und Kanten. . . . . . . . . . . . 474.7 Redundanz und Irrelevanz . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . 484.8 Eigenschaften des Ansatzes . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . 50

xii Inhaltsverzeichnis

5 Das Lernverfahren INDIGO 525.1 Eine syntaktische Reprasentation fur strukturierteObjekte . . . . . . . . . . . 535.2 Isomorphieentscheidung nach Weisfeiler . . . . . . . . . . . .. . . . . . . . . . . . . . 575.3 Polynomial-, Pfad-, und Normattribute . . . . . . . . . . . . . .. . . . . . . . . . . . . . 64

5.3.1 Polynomialattribute . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . 665.3.2 Pfadattribute . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . 705.3.3 Normattribute . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . 715.3.4 Kombination unterschiedlicher Kontexttiefen . . . . .. . . . . . . . . . 74

5.4 Generalisierung von Attributen . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . 755.4.1 Attributauswertungen . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . 785.4.2 Separierbarkeit bei geordneten Attributmengen . . . .. . . . . . . . . . 785.4.3 Vereinfachung des Klassifikators . . . . . . . . . . . . . . . . .. . . . . . . . . 79

5.5 Induktion, Klassifikation und Aufwand . . . . . . . . . . . . . . .. . . . . . . . . . . . 805.5.1 Klassifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . 815.5.2 Aufwand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . 81

5.6 Experimente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . 825.6.1 Blocks World . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . 835.6.2 Mutagenesis-Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . 875.6.3 Finite Element Mesh Design . . . . . . . . . . . . . . . . . . . . . . .. . . . . . 945.6.4 Schachendspiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . 97

5.7 Resumee . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . 97

6 Ansatze der Induktiven Logische Programmierung 996.1 Grundlegende Techniken der Induktion . . . . . . . . . . . . . . .. . . . . . . . . . . . 99

6.1.1 Subsumtion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . 1016.1.2 Hintergrundwissen . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . 1026.1.3 Plotkins speziellste Generalisierungen . . . . . . . . . .. . . . . . . . . . . 104

6.2 Spezialisierungsbasierte Ansatze . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . 1076.2.1 PROGOL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1076.2.2 FOIL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

6.3 LGG-basierte Ansatze . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . 1116.4 Object Identity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . 112

6.4.1 Refinement und Object Identity . . . . . . . . . . . . . . . . . . . .. . . . . . . 1146.5 Relationale Entscheidungsbaumverfahren . . . . . . . . . . .. . . . . . . . . . . . . . 1166.6 Nichtmonotone Klassifikation . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . 1186.7 LINUS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . 119

7 TRITOP 1217.1 Reprasentation der Beispiele . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . 1237.2 α-Subsumtion und Klassifikation . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . 124

7.2.1 Attributauswertungen . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . 1267.3 Baumaufbau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . 1277.4 Spezialisierende Attributberechnung. . . . . . . . . . . . . .. . . . . . . . . . . . . . . . 128

Inhaltsverzeichnis xiii

7.4.1 Der Spezialisierungsoperatorρ+ . . . . . . . . . . . . . . . . . . . . . . . . . . 1297.5 Generalisierende Attributberechnung . . . . . . . . . . . . . .. . . . . . . . . . . . . . . 131

7.5.1 Beispielteile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . 1327.5.2 Speziellsteα-Generalisierungen . . . . . . . . . . . . . . . . . . . . . . . . . . 1347.5.3 Der Generalisierungsoperatorρ− . . . . . . . . . . . . . . . . . . . . . . . . . . 139

7.6 Bereichstheorien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . 1417.7 Constraints . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . 144

7.7.1 Der Constraintoperatorρ+ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1477.8 Baume als Programme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . 1487.9 Korrektheit und Vollstandigkeit . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . 1507.10 Experimente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . 1517.11 Resumee . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . 153

8 Konstruktion von Klassenprototypen 155

9 Reduktion von Strukturen 159

10 Zusammenfassung und Ausblick 165

A Notationen 170

B Tests fur zwei normalverteilte Meßreihen mit unbekannten Mittelwertenund Varianzen 172

C Grundlagen der Logik 174C.1 Syntax . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . 174C.2 Semantik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . 175C.3 Klauseln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . 177

C.3.1 Herbrand-Interpretationen . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . 177C.3.2 Substitutionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . 178C.3.3 Resolution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . 179

Literatur 181

Kapitel 1

Einleitung

1.1 Lernen von relationalen Begriffen

Bei dem in dieser Arbeit betrachteten Problem des Lernens von relationalen Begrif-fen geht es darum, fur eine gegebene Menge von relational strukturierten Beispielen,deren Klasse von einem Lehrer vorgegeben wird und deshalb bekannt ist, eine Hypo-these zu finden, die die vorliegende Klassifizierung in intensionaler Form anhand vonstrukturellen Merkmalen der Beispiele erklart. Eine relational strukturierte Beispielbe-schreibung charakterisiert ein oder mehrere Elementarobjekte mit ihren Elementarei-genschaften, sowie die evtl. zwischen ihnen bestehenden Relationen. Die Klasse kannentweder der Beispielstruktur insgesamt zugeordnet sein,oder aber einem Tupel vonElementarobjekten innerhalb der Struktur. Beispiele furrelationale Beschreibungensind markierte Graphen mit Knoten und Kanten und logische Formeln.

Relationale Lernverfahren haben im Bereich des sog.Knowledge Discovery in Da-tabases(KDD, z. B. [24]) an Bedeutung gewonnen, da mit ihnen der Zusammenhangzwischen bestimmten Eigenschaften und strukturellen Merkmalen von gegebenen Da-ten analysiert werden kann. Zu nennen sind Anwendungen in den folgenden Gebieten:

1. Biochemie und Medizin:lernfahige Pradiktion der Mutagenitat von Aromaten undHeteroaromaten ([13,111,57,113,110,112]); Quantitative Wirkungsanalyse fur Py-rimidine und Triazine ([55,56]), die als Bestandteile in Antibiotika vorkommen;Analyse der Wirksamkeit von Medikamenten fur die Alzheimer-Krankheit ([56])– hier sollen Varianten eines besonders toxischen Medikaments auf ihre medizini-sche Wirksamkeit hin analysiert werden.

2. Mikrobiologie: Pradiktion der Sekundarstruktur, d. h. Faltung von Proteinen an-hand ihrer Primarstruktur ([79]), d. h. der Sequenz der Aminosauren

3. ingenieurwissenschaftliche Anwendungen:Lernen von Konstruktionsregeln fur dieMethode der Finiten Elemente ([19,20,18])

4. Sprach-, Text- und Dokumentenverarbeitung:Lernen von semantischen Gramma-tiken ([133]), automatisierter Erwerb von Regeln fur die Interpretation von Doku-menten ([23])

5. Prozeßsteuerung und -diagnose:Lernfahige Fehlerdiagnose fur die Energieversor-gung von Satelliten ([25]), Lernen von Regeln fur die Auswertung von Sensordatenbei der Robotersteuerung ([58])

6. sozialwissenschaftliche Anwendungen:Analyse von sozialen Konstellationen, z. B.von Psychotherapiegruppen ([108])

In den genannten Anwendungsgebieten besitzen die zu analysierenden Daten eineinharent relationale Struktur, die durch eine Darstellung als Vektoren oder Listen von

2 Kapitel 1. Einleitung

G

G

G

G

b b

b

ss

n+db

s sb

b n+d b

s sp

n+db b

ssb

nb b2

4

1

3

2 21

3 4 1 2

3

1

3

2

1

3

Abbildung 1.1: Die vier KonfigurationenG1, G2, G3 und G4 der Blocks World (b=”Block“,

p=”Prisma“,s=

”tragt“ (supports),n=

”direkt neben“,d=

”beruhrt nicht“ (does

not touch)). Mit diesen Konfigurationen ist eine Trainingsmenge fur dasKonzept

”Tor“ die Menge S0 = {(G1,+),(G2,+),(G3,−),(G4,−)}. Eine

Trainingsmenge fur das Konzept”Tordurchfahrt“ istS2 = {E1,E2,E3,E4}

mit den BeispielenE1 = (((v11,v

12),G1),+), E2 = (((v2

1,v22),G2),+), E3 =

(((v31,v

32),G3),−), undE4 = (((v4

1,v42),G4),−).

Attributwerten nicht adaquat wiedergegeben werden kann –dies wird fur chemischeSubstanzen beispielsweise in [112] gezeigt. Die hohere Ausdruckskraft bei einer rela-tionalen Beschreibung der Daten muß jedoch gegenuber attributwertbasierten (propo-sitionalen) Verfahren im Allgemeinen mit einer wesentlich hoheren Komplexitat beimLernen und bei der Klassifikation bezahlt werden (s. [40,54]). Im folgenden soll kurzerlautert werden, wodurch diese hohe Komplexitat zustande kommt.

1.2 Ursachen fur die Komplexitat bei relationalen Lernverfahren

Wir wollen als einfaches Beispiel Konfigurationen aus Spielzeugbausteinen – die sog.Blocks World (z. B. [126]) – betrachten. Die Konfigurationenbestehen aus Objek-ten, die entweder Blocke oder Prismen sind, fur die die Relationens=

”tragt“, d =

”beruhrt nicht“ undn =

”steht direkt neben“ bestehen konnen. Die Form des Objektes

wird als Elementareigenschaft mit Hilfe der unaren Relationenb und p modelliert. InAbb. 1.1 finden sich die vier BeispielkonfigurationenG1, G2, G3 undG4 mit den zu-gehorigen Graphen. Eine logische Darstellung der KonfigurationG1 als Konjunktionvon Fakten mit Konstantenv1

1, v12 undv1

3 ist durch den AusdruckG1 = (b(v11), b(v1

2),b(v1

3), n(v11,v

12),n(v1

2,v11), d(v1

1,v12), d(v1

2,v11),s(v

11,v

13), s(v1

2,v13)) geben. Faßt man die

Konstanten der Konjunktion als existenzquantifizierte Variablen auf, so erhalt man diesog.Produktdarstellung([122]), die auch fur die Reprasentation von Graphen geeig-net ist und verwendet wird (z. B. in [122,40,33]). Wir werdenin dieser Arbeit meistDarstellungen fur relationale Strukturen verwenden, diewie die Produktdarstellung an

1.2. Ursachen fur die Komplexitat bei relationalen Lernverfahren 3

b)a)z

s s

d

s s

n+d

c) class(x,y) <- d(x,y),s(x,z),s(y,z)

durchfahrt(x,y) :- d(x,y),s(x,z),s(y,z)

d)

x y

v1 v2

bb- +

janein

Abbildung 1.2: a) Der TestgraphG – der gestrichelte Pfeil kennzeichnet die durchG charak-terisierten Knotenx undy.b) Die logische KlauselC fur das Konzept

”Tordurchfahrt“.

c) Von CRS generiertes Strukturattribut (der Kontext von(v11,v

12)).

d) Der TRITOP-Entscheidungsbaum fur das Konzept”Tordurchfahrt“.

den Relationen orientiert sind, denen man aber einen markierten Graph als”bildhafte“

Interpretation zuordnen kann.

Ein relationales Konzept, bei dem die Klasse der Gesamtstruktur zugeordnet wird,ist der Begriff

”Tor“ (Graphklassifikation). Ein Beispiel fur ein sog.kontextabhangiges

Konzept(nach [119]), bei dem die Klasse einem geordnetenTupel von Knotenim durchdie restliche Beispielstruktur gegebenen Kontext zugeordnet wird, ist der Begriff

”Tor-

durchfahrt“. Eine Trainingsmenge fur diesen Begriff istS2 = {E1,E2,E3,E4} mit denBeispielenE1 = (((v1

1,v12),G1),+), E2 = (((v2

1,v22),G2),+), E3 = (((v3

1,v32),G3),−),

und E4 = (((v41,v

42),G4),−). Das zu erlernende Konzept stellt also eine zweistellige

Relation dar.

Die Induktion, d. h. das Erlernen einer Hypothese fur die vorgegebene Klas-sifikation, besteht in der Bestimmung von relevanten Strukturmerkmalen derBeispielstrukturen- bzw. Tupel und in der Anordnung der Merkmale in einer geeig-neten Wissenstruktur, z. B. einem Entscheidungsbaum oder in Form von Regeln bzw.eines logischen Programms. Die Hypothese erlaubt die Klassifikation der Trainings-beispiele und von neuen Beispielen, die nicht in der Trainingsmenge enthalten waren.Begriffslernverfahren, die keine explizite Hypothese erzeugen, werden in dieser Ar-beit nur am Rande betrachtet. Hierzu zahlen abstands- und instanzenbasierte Verfahren([6,7,21,104,96,100,97,95,99,98]), bei denen die Beispiele selbst oder generalisierte,prototypische Beschreibungen zur Klassifikation verwendet werden. Die Verwendungder ursprunglichen Beispiele zur Klassifikation erlaubt oft nur einen relativ geringenEinblick in die Natur der Klassenbildung.

In Abb. 1.2a) findet sich als Beispiel fur ein Strukturmerkmal der TestgraphG,der als Attribut fur den Aufbau einer komplexeren Hypothese verwendet werden kann.Der gestrichelte Pfeil zwischen den Knotenx und y deutet an, daß das Knotenpaar,d. h. die Kante(x,y), durch G charakterisiert wird. Ein Paar von zu klassifizieren-


den Knoten(u,v) in einer StrukturH besitzt das MerkmalG, wennG mit einer ge-eigneten Abbildungf der Knoten als Teilstruktur inH enthalten ist, wobei als Ne-benbedingungf (x) = u und f (y) = v gelten muß1. Wir wollen in dieser Arbeit eineFunktion f , die eine relationale Struktur in eine andere Struktur abbildet und mit denRelationen vertraglich ist, allgemein alsHomomorphismusbezeichnen ([103]).f istein injektiver Homomorphismus – ein sog.Monomorphismus. Fur das Paar(v1

1,v12)

aus der KonfigurationG1 in Abb. 1.1 gibt es beispielsweise den Monomorphismusf : G−→G1 mit f (x) = v1

1, f (y) = v12 und f (z) = v1

3. Die meisten graphbasierten Lern-verfahren ([126,108,107,132,51,96,100,97,95,99,98,129,45,101,46]) und produktba-sierten Ansatze ([122,123,42,40,73]) basieren explizitoder implizit auf injektiven Ab-bildungen der Elementarobjekte, also auf Monomorphismen.Beim Lernen spielt dieBestimmung von Homomorphismen ebenfalls eine Rolle, beispielsweise bei der Er-mittlung von Gemeinsamkeiten, d. h. von isomorphen Unterstrukturen der Beispieleals partielle Isomorphien(die GraphenG1 und G2 in Abb. 1.1 besitzen eine zuGisomorphe Unterstruktur).

Eine logische Klausel fur das Konzept”Tordurchfahrt“, die dem TestgraphG in

Abbildung 1.2a) strukturell entspricht, ist die KlauselC in Abbildung 1.2b). Die Klas-sifikation, d. h. die Anwendung der Regel, erfolgt durchSLD-Resolution([64,92]).Fur die KonjunktionG1 erhalt man aus einer SLD-Refutation, d. h. einer Ablei-tung der leeren Klausel� mit SLD-Resolutionsschritten, die Variablenbelegung (Ant-wortsubstitution)σ = {x← v1

1,y← v12,z← v1

3}. Aus G1 laßt sich so das Faktumdurchfahrt(v1

1,v12) ableiten. Das Paar(v1

1,v12) wird somit korrekt klassifiziert. Ein im

Vergleich zur SLD-Resolution vereinfachtes und entscheidbares logisches Prinzip derKlassifikation ist die sog.θ-Subsumtion(z. B. [84]). Betrachtet man dieKlauseldar-stellung C1 = (durchfahrt(v1

1,v12)← G1) des BeispielsE1, so subsumiert die Klau-

sel C die BeispielklauselC1, d. h., es giltσ(C) ⊆ C1. Die SLD-Resolution und dieθ-Subsumtion sind die wichtigsten Klassifikationsprinzipien der sog.Induktiven Lo-gischen Programmierung(ILP), bei der Klassifikatoren durch logische Programmedargestellt werden – Einfuhrungen undUbersichten zur ILP finden sich beispielsweisein [74,62,77].

Garey and Johnson haben in [28] gezeigt, daß die Subgraphisomorphie, d. h. dieEntscheidung der Einbettbarkeit durch Monomorphismen, und die Entscheidung derθ-Subsumtion NP-vollstandige Probleme sind (s. auch [40,54]). Die Senkung dieserdurch Morphismen entstehenden Berechnungskomplexitat ist also einer der entschei-denden Punkte beim relationalen Lernen2.

1 Zur Definition der Teilstrukturbeziehung betrachten wir indieser Arbeit nicht die Graphen,sondern die Relationen, die die Graphen definieren.

2 Der zweite wesentliche Punkt, der in dieser Arbeit nur am Rande betrachtet wird, ist dieLernbarkeitvon relationalen Konzepten. EineUbersicht uber die verschiedenen Modelleder Lernbarkeit und uber Ergebnisse fur verschiedenen Klassen von Konzepten findet sichin [54].

1.3. Komplexitatsreduktion durch Propositionalisierung 5

1.3 Komplexitatsreduktion durch Propositionalisierung

In [119] und [130] wurde von F. Wysotzki der graphbasierte Ansatz CRS

vorgestellt, der auf dem Isomorphieentscheidungsverfahren von Tinhofer beruht([48,115,117,116,118]) und bei dem fast vollstandig auf die Berechnung von Homo-morphismen verzichtet wird. Graphen werden bei CRS zunachst algebraisch alsstruk-turierte Objektereprasentiert. Jedes strukturierte Objekt in der Trainingsmenge wirdmit Hilfe automatisch konstruierterStrukturattributein einen isomorphieinvariantenMerkmalsvektortransformiert. Beim Lernen aus der transformierten Trainingsmengeund bei der Klassifikation von ebenfalls in Merkmalsvektoren transformierten neu-en Beispielen ist die Bestimmung von Morphismen nicht mehr erforderlich. Nebender daraus resultierenden Komplexitatsreduktion konnen klassische merkmalsbasierteEntscheidungsbaumverfahren wie CAL 2 und CAL 3 ([119]) fur den eigentlichen Lern-schritt verwendet werden.

Die von CRS fur die Transformation generierten Strukturmerkmale sind Beschrei-bungen von Knoten- und Kantentypen, die nicht wie die Beispiele der Trainingsmengeals strukturierte Objekte, sondern in Form vonMerkmalsvektorenreprasentiert werden.Zur Konstruktion dieser Merkmalsvektoren geht CRS von der relationalen Darstellungder Beispiele als strukturierte Objekte aus (ahnlich der Produktdarstellung) und er-zeugt aus dieser zunachst eine Graphreprasentation, beider Knoten- und Kanten durchMerkmalsvektoren markiert sind. Die Kante(v1

1,v12) im GraphG1 wird z. B. durch den

Vektor (xp=0,xb=0,yn=1,yd =1,ys=0,ys′=0) beschrieben. Die Ausdruckeyn = 1undyd = 1 besagen beispielsweise, daß die Kante mit den Relationenn undd markiertist3.

Bei der Graphklassifikation, z. B. beim Erlernen des Konzepts”Tor“, werden die in

den Beispielen vorkommenden verschiedenen Markierungen der Knoten bzw. Kantenals sog.Knoten- bzw. Kantenattributezum Lernen verwendet, d. h., die Attribute sindin diesem Fall selbst durch Merkmalsvektoren bestehend ausden Werten der Elemen-tarattribute beschrieben. Einem zu transformierenden bzw. zu klassifizierenden Bei-spielgraph wird als Attributwert fur ein Knoten- oder Kantenattribut die Anzahl seinerKnoten bzw. Kanten zugeordnet, die mit dem Vektor des Attributs markiert sind. DieReihenfolge der Attributwerte im Merkmalsvektor ergibt sich aus der im Prinzip be-liebigen Anordnung aller Attribute in einem Attributvektor.

Wahrend sich elementare Eigenschaften eines Knotens bzw.einer Kante leicht ineinem Merkmalsvektor reprasentieren lassen, mussen komplexere Struktureigenschaf-ten, die beispielsweise Konfigurationen von mehr als zwei Knoten charakterisieren,alsKontextinformationin die Knoten- und Kantenmarkierungen der Beispielgraphenaufgenommen werden. Dazu werden die Vektoren zur Markierung der Knoten undKanten um die Werte von Attributen, die den Kontext charakterisieren, erweitert. Sind

3 Die Relations′ steht fur die zus inverse Relation, d. h.”wird getragen“. Die Beschreibung

von Knotenund Kanten erfolgt inallen Grapheneinheitlichmit denselben Elementarattri-butenxb, xp, yn, yd, ys, ys′ .


w und w′ zwei vorliegende Knoten- oder Kantenmarkierungsvektoren, so generiertCRS das neueKontextbeschreibungsattribut nw,w′. Der Attributwert beispielsweise fur(v1

1,v12) berechnet sich wie folgt. Ein Knotenv, fur den es eine mitw markierte Kan-

te (v11,v) und eine mitw′ markierte Kante(v1

2,v) gibt, tragt 1 zum Wert des Kon-textbeschreibungsattributsnw,w′ fur die Kante(v1

1,v12) bei. D. h., es gilt beispielsweise

nws,ws(v12,v

12) = 1, da es genau einen dritten Knoten gibt, der vonv1

1 bzw. v12 uber ei-

nes-Kante zu erreichen ist. Der so entstehende VektorK beschreibt insgesamt die inAbb. 1.2c) dargestellte Konfiguration. Faßt man die KontextbeschreibungK als Be-schreibung eines Attributs auf, so besitzen die GraphenG1 und G2 in Abb. 1.1 denAttributwert 2 – sie besitzen zwei entsprechend markierte Kanten –, die GraphenG3

und G4 besitzen den Attributwert 0, da keine Kante in ihnen den Kontext K besitzt,d. h. mitK markiert ist.

Bei der kontextabhangigen Klassifikation von Knoten bzw. Kanten soll im Gegen-satz zur Graphklassifikation nicht der Gesamtgraph, sondern fur jedes Beispiel derklassifizierte Knoten oder die klassifizierte Kante des Beispiels vektoriell dargestelltwerden. Die Verwendung der Knoten- bzw. Kantenattribute macht deshalb in der obendargestellten Weise keinen Sinn. Allerdings lassen sich imUnterschied zur Graphklas-sifikation die Attribute, die zur Knoten- bzw. Kantenbeschreibung benutzt wurden, zurInduktion verwenden – also die Attribute zur elementaren Beschreibung von Knotenbzw. Kanten und die generierten Kontextbeschreibungsattribute. Betrachtet man z. B.das BeispielE1 = (((v1

1,v12),G1),+), so enthalt die transformierte Trainingsmenge als

Beschreibung von(v11,v

12) im KontextG1 den Vektor, der durchK gegeben ist. Betrach-

tet man die Vektoren der anderen Beispiele, so fuhrt beim Konzept”Tordurchfahrt“ die

Verwendung der Attributenws,ws undyd zu einer Unterscheidung der Kantenklassen.Die Transformation von CRS, d. h. die Kontextbildung undIterierungdes Verfah-

rens, sowie die Verwendung von sog.Tripelattributen, bei denen mit Hilfe von Kno-tenkontexten eine Menge von normierten Darstellungen eines Beispiels erzeugt wird,wird in Kapitel 4 ausfuhrlich dargestellt. Wahrend sich aus theoretischen Grunden4

bestimmte Isomorphieklassen von Graphen mit Knoten- und Kantenattributen nichtunterscheiden lassen (vgl. Abschnitt 5), erlauben Tripelattribute die eineindeutige Re-prasentation der Beispielgraphen durch Merkmalsvektoren. In beiden Fallen ist dieDarstellung jedoch isomorphieinvariant.

Die beschriebene Merkmals- bzw. Kontextbildung liegt dem Isomorphieentschei-dungsverfahren von Tinhofer zugrunde und wird dort zur simultanen Verfeinerungder Knoten- bzw. Kantenpartition zweier Graphen verwendet. Die Transformation vonCRS stellt also einen spezifisch graphentheoretischen Ansatz dar. D. h., daß die Trans-formation nicht mit logischen Methoden hatte erzielt werden konnen, und daß CRSdasErlernen von Konzepten mit einem qualitativ von logischen Verfahren verschiedenenKlassifikationsprinzip erlaubt. Inbesondere unterscheidet sich die Transformation vonCRSvon der des ILP-Verfahrens LINUS ([63,62]), welches sog. deterministisches Wis-

4 Fur die Isomorphieentscheidung im allgemeinen Fall sind nur exponentielle Algorithmenbekannt.

1.4. Erweiterung und Evaluierung von CRS 7

sen – in der ILP das sog. Background Knowledge – zum Lernen benotigt und deshalbin vielen Fallen (z. B. fur die Pradiktion der Mutagenit¨at) nicht anwendbar ist.

1.4 Erweiterung und Evaluierung vonCRS

CRS bietet einige Ansatzpunkte fur Verbesserungen und Modifikationen. Wir stellenin dieser Arbeit das Verfahren INDIGO ([31,30,32,33]) als Weiterentwicklung von CRS

vor. INDIGO besitzt die folgenden wesentlichen Merkmale:

1. INDIGO stellt einenvereinheitlichten und erweiterten Ansatz der Merkmalsbildungfur die Graphklassifikation und die kontextabhangige Klassifikation zur Verfugung.Der Ansatz basiert auf dem Isomorphieentscheidungsverfahren von Weisfeiler([125]), bei dem Kontextbeschreibungen formale Polynome sind, die aus einer for-malen Multiplikation der Adjazenzmatrizen gewonnen werden. Der Zusammen-hang der Isomorphieentscheidungsverfahren von Tinhofer und Weisfeiler wird inSatz 5.2.1 beleuchtet.

2. Die neue Darstellung fuhrt zu einer im Vergleich zu CRS intuitiveren Interpreta-tion der Kontextbildung als Berechnung vonPfadenim Graphen. Hieraus ergibtsich ein neuer Attributtyp – die Pfadattribute (Abschnitt 5.3.2) – mit verbessertengeneralisierenden Eigenschaften.

3. Das StrukturattributK in Abb. 1.2c) umfaßt, obwohl es die Klassen+ und− in derTrainingsmenge in Abb. 1.1 unterscheidet, einen Großteil irrelevanter und redun-danter Informationen, z. B. uber die Form des ersten bzw. zweiten Knotens (manvergleiche die einfachere Struktur des TestgraphsG in Abb. 1.2a), die ebenfallszur Klassentrennung ausreicht). Die Elimination von irrelevanten und redundan-ten Informationenin Attributbeschreibungen ist zur Vereinfachung der Hypothesewunschenswert. INDIGO verwendet hierfur eine neue, syntaktischeGeneralisie-rungsbeziehungfur Attribute (Abschn. 5.4), die zur Struktureinbettung durch Mo-nomorphismen in Beziehung gesetzt werden kann (Satz 5.4.1).

Zur Evaluation des neuen Verfahrens werden in dieser Arbeit Experimen-te in verschiedenen Anwendungsgebieten beschrieben, die Benchmarks im Be-reich des relationalen maschinellen Lernens darstellen. Betrachtet wird dieVor-hersage der Mutagenitat von aromatischen und heteroaromatischen Substanzen([13,111,57,113,110,112]), bei der strukturelle Indikatoren fur die Fahigkeit einer che-mischen Substanz zur Veranderung des menschlichen Erbguts bestimmt werden sol-len. Als ingenieurwissenschaftliche Anwendung wird das Erlernen von Regeln fur dieKonstruktion von Gittermodellen fur Maschinenteile untersucht, die fur die Analy-se von physikalischen Beanspruchungen geeignet sind (Finite Element Mesh Design,[19,20,18]). Ein weiteres Anwendungsgebiet ist die Analyse von Stellungen imScha-chendspiel(z. B. [87]).


1.5 Vergleich von logischen und graphentheoretischenLerntechniken

Da die Induktive Logische Programmierung eine wesentlicheRolle beim relationa-len Lernen spielt, ist ein zweites Anliegen dieser Arbeit die Gegenuberstellung vongraphentheoretischen und logischen Techniken des Lernens.

Aus der Gegenuberstellung von Monomorphismen und logischen Substitutionenwurde die sog.α-Subsumtionentwickelt, die eine Einschrankung derθ-Subsumtionauf sog. alphabetische Substitutionen und konstantenfreie Klauseln darstellt, unddeshalb das Konzept des Monomorphismus in der Logik widerspiegelt5. Die α-Subsumtion stellt eine Erweiterung der Generalisierungsbeziehungen fur Produktein den Arbeiten von Vere ([122,123]), Hayes-Roth ([42,41])und Haussler ([40,53])dar, und besitzt Gemeinsamkeiten mit derθOI-Subsumtion von Esposito et al. (θ-Subsumtion with Object Identity, [22]). Im Gegensatz zurθOI-Subsumtion ist dieα-Subsumtion fur die Einbeziehung vonConstraints, z. B. uber den reellen Zahlen,geeignet. Die Darstellung derα-Subsumtion in dieser Arbeit umfaßt die folgendenPunkte:

1. Es sollen dieEigenschaften derα-Subsumtioninbesondere bezuglich der Komple-xitat der beteiligten Klauseln dargestellt werden (Proposition 7.4.1).

2. Der enge Zusammenhang von produktbasierten Generalisierungen und dem LGGwurde von J.-U. Kietz in [53] festgestellt. Als Weiterfuhrung dieser Arbeit betrach-ten wir den Zusammenhang zwischen speziellsten Generalisierungen bezuglich derα-Subsumtion (speziellsteα-Generalisierungen, αLGGs) und der speziellsten Ge-neralisierung bezuglich derθ-Subsumtion nach Plotkin (LGG, [84]) und gebeneinen neuen Algorithmus zur effizienten Berechnung derαLGGs aus dem LGGan.

3. Die wichtigste, auch bei den bekannten Verfahren PROGOL ([75]) und FOIL ([87])verwendete Lerntechnik der ILP ist dieschrittweise Spezialisierung(bzw. Genera-lisierung) von Klauseln bei der Suche nach einer geeignetenHypothese (sog. Refi-nement, [106,121]). Wir zeigen, daß der durch dieα-Subsumtion induzierte Such-raum fur die Spezialisierung bzw. Generalisierung einer Hypothesenklausel bei ei-ner gegebenen Trainingsmenge von Beispielklauseln endlich ist (Korollar 7.4.1),und daß sog.ideale Spezialisierungsoperatoren(s. z. B. [22]) existieren (Korol-lar 7.4.2).

4. Schließlich wird ein an dieα-Subsumtion angepaßtersaturierungsbasierter Ansatz([94]) zur Einbeziehung von Wissen uber den betrachteten Anwendungsbereich(sog. Bereichtheorien) in den Lernprozess dargestellt, der zu einer modifiziertenForm der generalisierten Subsumtion von Buntine aquivalent ist ([10]), und dessenKorrektheitundVollstandigkeitbewiesen (Satz 7.9.2).

5 Die zugehorige Substitution ist eine Abbildung syntaktischer und nicht relationaler Struktu-ren und deshalb nicht selbst ein Monomorphismus.

1.6. Entwicklung eines hybriden Lernverfahrens 9

1.6 Entwicklung eines hybriden Lernverfahrens

Das hybride Lernverfahren TRITOP ([35,34]) basiert auf derα-Subsumtion und er-zeugt relationale Entscheidungsbaume, die Testklauselnals Attribute enthalten –ein Beispiel fur einen solchen Baum findet sich in Abbildung1.2d). Zur Auswer-tung des Baums muß gepruft werden, ob die AttributklauselA = (class(x,y) ←d(x,y),s(x,z),s(y,z)), die fur sich genommenkeiner bestimmten Klasse zugeord-net ist, das zu klassifizierende Beispielα-subsumiert. In diesem Falle wird derja-Zweig des Tests beschritten, sonst dernein-Zweig. Bei TRITOP wird eine Klauseldar-stellung fur die Beispiele verwendet: Das BeispielE1 wird z. B. durch die KlauselC′1 =(class(v1

1,v12)←G1) beschrieben, bei der das Klassenliteralclass(v1

1,v12) lediglich

die klassifizierten Objekte auszeichnet, nicht jedoch wie das Kopfliteral der Klausel(durchfahrt(v1

1,v12)←G1) (s. o.) deren Klasse spezifiziert (die Klasse eines Trainings-

beispiels ist zusatzlich gegeben). Die Zuordnung einer Klasse bei der Klassifikationeines Beispiels erfolgt erst nach derUberprufung von u. U. mehreren Testklauseln,wenn ein Blatt erreicht wird.

Zur Charakterisierung von TRITOP sind die folgenden Punkte von Bedeutung:

1. DerBaumaufbau erfolgt mit Hilfe eines rekursiven Top-Down-Verfahrens, welchesauch den bekannten Entscheidungsbaumverfahren CAL 5 ([119]), CART ([8]) undID3 ([90]) bzw. C4.5 ([88]) zugrunde liegt.

2. Von den genannten propositionalen Verfahren unterscheidet sich TRITOP inder Notwendigkeit der Konstruktion geeigneter Attribute.Die Konstruktion vonTestklauseln ist bei TRITOP eine Kombination von nutzlichen Lerntechniken:TRITOP-SPEC mit Spezialisierungsoperatoren, und TRITOP-GEN mit Generalisie-rungsoperatoren und Bestimmung vonαLGGs.

3. Gegenuber den rein spezialisierungsbasierten Entscheidungsbaumverfahren derILP (TILDE [91], SRT [59,60], STRUCT [124]) ist bei TRITOP also dergeneralisie-rungsbasierte Baumaufbau, d. h. die Bildung von LGGs und die Anwendung vonGeneralisierungsoperatoren furjedeKlasse, vorgesehen. Die Bildung von speziell-sten Generalisierungen wurde in der ILP bisher nur fur Positivbeispiele betrachtet(GOLEM [19], CILGG [54], CHILLIN [134]).

4. Bei TRITOP werdenalle Klassen einheitlich behandelt, d. h., es werden gegebe-nenfalls Regeln fur jede Klasse erzeugt, und nicht wie bei vielen Verfahren der ILPdie sog. positive Klasse (Positivbeispiele) der negativenKlasse (Negativbeispiele)vorgezogen, indem entweder uberhaupt nur Regeln fur die Positivbeispiele gelerntwerden (GOLEM, CILGG, CHILLIN , PROGOL und FOIL), oder aber die Erzeugungvon positiven Regeln bevorzugt wird (z. B. NMLEARN in [17]).

5. In den Arbeiten [4,17,5] wurde die Nutzlichkeit bzw. dieNotwendigkeit des Ler-nens vonnichtmonotonen Klassifikatorenherausgestellt. Ein von TRITOPerzeugterbinarer Entscheidungsbaum stellt einen solchen nichtmonotonen Klassifikator dar,d. h., daß dasFehlenkomplexer Teilstrukturen als klassifizierungsrelevant erkanntwerden kann. Dies ist bei herkommlichen ILP-Verfahren wiePROGOL ([75]) undFOIL ([87]) nicht oder nur eingeschrankt moglich.


6. Menschliche Konzepte hangen haufig nicht nur von der Existenz bestimmter Merk-male ab, sondern auch davon,wie oft ein Merkmal auftritt. Von TRITOP konnendeshalbnichtbinare Entscheidungsbaumegelernt werden.

1.7 Generierung von Prototypen

Neben den beiden Lernverfahren INDIGO und TRITOP wird in dieser Arbeit ein An-satz zur Generierung von Prototypen vorgestellt, mit dem aus den von INDIGO oderTRITOP generierten Entscheidungsbaumencharakteristische Klassenbeschreibungenin Form von Prototypen fur die Trainingsmenge generiert werden konnen. Die Proto-typen werden als gemeinsame Teilstrukturen, d. h. alsαLGGs der Beispiele, in jedemBlatt des Entscheidungsbaumes gebildet. Eine ahnliche Idee wurde schon von Mana-go fur das frameorientierte und spezialisierungsbasierte EntscheidungsbaumverfahrenKATE ([66]) formuliert, jedoch gibt der Autor kein geeignetes Verfahren fur die Gene-ralisierung an. Wir beschreiben in dieser Arbeit ein Experiment fur die Pradiktion derMutagenitat, bei der das von Kristina Schadler entwickelte konnektionistische Verfah-ren MATCHBOX ([100,97,96]) zur effizienten, approximativen Berechnungder Proto-typen eingesetzt wird.

1.8 Komplexitatsreduktion durch Datenreduktion

Ein Ansatz zur Komplexitatsreduktion beim Lernen, der nicht bei den Lernverfah-ren ansetzt, sondern bei den zum Lernen verwendeten Daten, ist die Reduktion bzw.Hierarchisierung der Daten mit Hilfe bestimmter Strukturbausteine – bei chemischenSubstanzen etwa funktionale Gruppen, aromatische Ringe, Kohlenstoffketten etc. Indieser Arbeit werden die Probleme der geeigneten Generierung und Bewertung sol-cher Muster – eine Fragestellung des Entdeckungslernens –,sowie der Graphreduktionund -rekonstruktion mit Hilfe der gelernten Muster identifiziert, und erste Ansatze zurLosung vorgestellt.

1.9 Aufbau der Arbeit

Da die Arbeit die Bereiche der propositionalen Lernverfahren, der Induktiven Logi-schen Programmierung und der graphentheoretischen Lernverfahren beruhrt, nimmtdie Darstellung dieser Gebiete sowie des Verfahrens CRS als Vorganger von INDIGO

einen relativ breiten Raum ein (Kapitel 2 bis 4 und Kapitel 6). Die eigenen Arbeitenumfassen die Kapitel 5 sowie Kapitel 7 - 9. Die Arbeit ist wie folgt gegliedert:

– In Kapitel 2werden propositionale Lernverfahren vorgestellt, und allgemeine Fra-gen des Begriffslernens diskutiert. Dabei wird insbesondere auf die Entscheidungs-baumverfahren CAL 2, CAL 3 ([119]) und ID3 ([90]) eingegangen, die die Grund-lage fur den Baumaufbau bei INDIGO bzw. TRITOP bilden.

1.9. Aufbau der Arbeit 11

Trainingsmenge(Merkmalsvektoren)

Trainingsmenge(Merkmalsvektoren)

Trainingsmenge(struktururierte Obj.)

(Graphen: Vektor-Matrizen)

Trainingsmenge Trainingsmenge

Trainingsmenge

(Graphen: Polynom-Matrizen)

Entscheidungsbaum

Trainingsmenge Bereichstheorie

Trainingsmenge

Entscheidungsbaum

(Strukturen) (def. Klauseln) (def. Klauseln)

(def. Klauseln)

(def. Klauseln)

Repräsentation Repräsentation

Transformation(Hinteregger/Tinhofer)

Induktion

Transformation(Weisfeiler)

Induktion(CAL3, ID3)

Generalisierung(Matchbox, K. Schädler) (Matchbox)

Generalisierung

α -Saturierung

- LGGαα

Transformation

log. Programm

Vereinfachung

Muster Muster

Generierung Reduktion Generierung Reduktion

INDIGO TRITOP(F. Wysotzki)CRS

Gen.-Bez.

(CAL2/3, Wysotzki)

(Strukturen)Prototypen

(def. Klauseln)Prototypen

SpezialisierungConstraints

Induktion:

(Klauseln)

(Strukt.+Literale)(Strukt.+Literale)

Entscheidungsbaum Entscheidungsbaum

- Subsumtion

(Monomorph.)

Abbildung 1.3: Ubersicht uber die Lernverfahren CRS, INDIGO und TRITOP

– In Kapitel 3 werden graph- und produktbasierte Ansatze des Begriffslernens vor-gestellt und diskutiert.

– Das Verfahren CRS wird als graphbasierter Ansatz in einem eigenen Kapitel(Kap. 4) relativ ausfuhrlich beschrieben.

– CRS bildet die Grundlage des Lernverfahrens INDIGO, welches imKapitel 5vor-gestellt wird.

– Der Induktiven Logischen Programmierung, insbesondere den bei TRITOP

benotigten Lerntechniken, widmet sich dasKapitel 6. In diesem Kapitel werdenaußerdem einige spezielle ILP-Verfahren vorgestellt, diebezuglich der oben ge-nannten Eigenschaften Gemeinsamkeiten mit INDIGO oder TRITOP besitzen.

– Das Lernverfahren TRITOP wird in Kapitel 7dargestellt.


– In Kapitel 8wird ein Ansatz zur Konstruktion von Klassenprototypen ausrelatio-nalen Entscheidungsbaumen dargestellt.

– In Kapitel 9 erfolgen einige theoretischeUberlegungen zur automatischen Gene-rierung von Mustern fur die Reduktion von Graphen bzw. relationalen Strukturen.

– DasKapitel 10beschließt die Arbeit mit einer Zusammenfassung der wichtigstenErgebnisse und einem Ausblick auf zukunftige Forschungsarbeiten.

– In Anhang Asind die wichtigsten verwendeten mathematischen Notationen darge-stellt.

– In Anhang Bfinden sich Tests fur zwei normalverteilte Meßreihen mit unbekanntenMittelwerten und Varianzen, bei denen nur Stichprobenmittel und -varianz bekanntsein mussen.

– Die wichtigsten logischen Notationen, die Syntax und Semantik derPradikatenlogik erster Ordnung sowie die Eigenschaften von Klauseln wer-den inAnhang Cdargestellt.

Die Abbildung 1.3 zeigt eineUbersicht der Lernverfahren CRS, INDIGO undTRITOP. Arbeitschritte, die zum Kern des jeweiligen Verfahrens gehoren, sind alsdurchgezogene Pfeile mit dunklen Spitzen dargestellt. Helle Spitzen deuten Schrittean, die nicht zum Kern des Lernverfahrens gehoren, z. B. dieBildung der Prototypenund die Datenreduktion.

Kapitel 2

Propositionale Lernverfahren

In diesem Kapitel werden grundlegende Fragen und Methoden des Begriffslernens1amBeispiel von propositionalen Lernverfahren dargestellt.Der Schwerpunkt des Kapitelsliegt auf der Einordnung und Bewertung von Lernverfahren und auf den Entschei-dungsbaumverfahren CAL 2, CAL 3 und ID3, da diese eine Grundlage fur die graphba-sierten Verfahren INDIGO und TRITOP bilden. Leser, die mit den betreffenden Berei-chen des maschinellen Lernens bzw. den Algorithmen CAL 2, CAL 3 und ID3 vertrautsind, konnen dieses Kapitel bzw. die entsprechenden Teileuberspringen.

Das Kapitel ist wie folgt gegliedert. In Abschnitt 2.1 gebenwir eine Einordnungvon Verfahren des Begriffslernens. Im Abschnitt 2.2 gehen wir auf Bewertungskri-terien fur Klassifikatoren und Lernverfahren ein. Im Abschnitt 2.3 werden die Ent-scheidungsbaumverfahren CAL 2 und CAL 3 dargestellt. Das Verfahren ID3 wird inAbschnitt 2.4 beschrieben.

2.1 Einordnung von Verfahren des Begriffslernens

Beim Begriffslernen geht man von einer Beispiel- oder InstanzenmengeL1 aus. EinemBeispielx∈L1 sei eine Klassec(x) funktional zugeordnet2. Die Funktionc : L1 −→ Cist beim Begriffslernen nicht bekannt, sondern soll aus einer Trainingsmengebzw. -stichprobe

S= {(xi,ci) |1≤ i ≤ s∧xi∈L1∧ci∈C} (2.1)

von klassifiziertenBeispielenxi gelernt werden. Die Klassenci stammen aus einerKlassenspracheC, also aus einer Menge von moglichen Klassenwerten. Wir betrach-ten in dieser Arbeit nur endliche MengenC. Die Aufgabe eines Lernverfahrens bestehtdarin, aus der Trainingsmenge eine geeigneteHypothese h∈L2 mit h : L1 −→ C zubestimmen, die mit der unbekannten Zielfunktionc moglichst gut ubereinstimmt, alsoeinen moglichst geringen Fehler besitzt bzw. moglichst geringe Kosten verursacht.

1 Allgemeine Darstellungen des maschinellen Lernens finden sich in [119,69,70,81]. Eine kur-ze Darstellung von gangigen Lernverfahren und ein empirischer Vergleich von statistischenund konnektionistischen Ansatzen und Ansatzen des maschinellen Lernens findet sich in[71]. Der Zusammenhang von statistischen Verfahren und Lernverfahren wird in [80] darge-stellt.

2 D. h., es wird angenommen, daß eine Beschreibung nicht mit unterschiedlichen Klassen vor-liegt. Um dies zu modellieren, mußte man eine Zielrelationc ⊆ L1×C annehmen oderevtl. sogar eine Verteilung aufL1×C betrachten. Liegt in der Trainingsmenge ein Beispielmit unterschiedlichen Klassen vor, so ist dies bei Annahme einer Funktionc auf Rauschenzuruckzufuhren.

14 Kapitel 2. Propositionale Lernverfahren

Unterschiedliche Typen von Lernverfahren ergeben sich ausder Betrachtung derParameter des Begriffslernproblemes, d. h., sie unterscheiden sich durch die Beispiel-spracheL1, die Sprache der KlassenwerteC, die Hypothesenmenge bzw. -spracheL2

und der Art und Weise, wie eine Hypothese erzeugt und bewertet wird.Werden die Trainingsbeispielexi durch Merkmalsvektorendargestellt, d. h., gilt

xi = (vij)1≤ j≤J mit vi

j ∈Xj und damitL1 = X1× . . .×XJ, so hat man es mit einempro-

positionalen3 Lernproblem zu tun. Die Funktionx j : L1−→ Xj mit x j(xi) = vij heißt

Attribut oder Merkmalund ihr Wertvij∈Xj Attributwert oder Merkmalsauspragung. Ist

ein Beispielxi relational strukturiert, also z. B. ein Graph oder eine logische Formel,so spricht man von einemrelationalen Lernproblem, vgl. Einleitung.

Bei CRS, INDIGO und TRITOP wird eine Darstellung der Trainingsmenge gemaß(2.1) angenommen, wobei bei CRS und INDIGO die Beispielexi als Graphen re-prasentiert sind, wahrend die Trainingsmenge bei TRITOP klassifizierte Klauselnenthalt. Bei CRS und INDIGO erfolgt eineTransformationder TrainingsmengeS ineine TrainingsmengeS′ mit Hilfe automatisch konstruierter ganzzahliger Attribute.S′

enthalt klassifizierte Merkmalsvektoren und genugt ebenfalls (2.1). Bei INDIGO wer-den zur Transformation der Beispiele nicht direkt Attributfunktionen sondern Attribut-beschreibungen erzeugt. Fur ein AttributA und ein BeispielC ergibt sich der Attribut-wert mit Hilfe einerAttributauswertungξ alsξ(A,C).

Lernverfahren unterscheiden sich nicht nur in der Beispiel- und Klassensprache,sondern auch durch die Sprache, in der die Hypothese formuliert wird, sowie in derArt und Weise, wie die Hypothese erzeugt und bewertet wird.Ubliche Darstellun-gen von Hypothesen sind Entscheidungsbaume, Regeln, logische Programme, kon-nektionistische Strukturen und probabilistische Netze. Einer Hypothesendarstellungh′

wird durch eine geeignete Interpretationsfunktionδ die eigentliche Hypothesenfunkti-onh = δ(h′) zugeordnet. Als Gutekriterien zur Beurteilung einer Hypotheseh werdenhaufig der Klassifikationsfehler, die mittleren Kosten oder aber die Komplexitat derHypothesendarstellungh′ verwendet (s. Abschnitt 2.2). Neben exakt zu messendenKriterien spielt fur den Menschen oft die Verstandlichkeit des erlernten Wissens, d. h.die Interpretierbarkeit vonh′, eine große Rolle.

Gemaß dem in [71] durchgefuhrten Vergleich von Ansatzenzur Klassifikationweisen Entscheidungsbaumverfahren Verfahren relativ gute Lernraten auf. Entschei-dungsbaume sind im Vergleich etwa zu Neuronalen Netzen oder probabilistischenKlassifikatoren vom Menschen leicht zu interpretieren, undkonnen im Gegensatzzu klassischen statistischen Verfahren relativ komplex strukturierte Zusammenhangezwischen Attributen und Klasse reprasentieren (Disjunktion, Konjunktion, Negation).Aufgrund dieser Tatsachen wurden Entscheidungsbaumverfahren als Lernkomponen-ten von INDIGO verwendet, und TRITOP als relationales Entscheidungsbaumverfahrenentwickelt.

3 d. h. aussagenlogischen

2.2. Bewertung und Vergleich von Klassifikatoren und Lernverfahren 15

2.2 Bewertung und Vergleich von Klassifikatoren undLernverfahren

Die Bewertung der von INDIGO und TRITOP erzeugten Klassifikatoren und der Ver-gleich mit anderen Lernverfahren erfolgt anhand der im folgenden dargestellten Ver-fahren.

Es sei eine WahrscheinlichkeitsverteilungP auf L1 gegeben. Dann ist fur eine in-terpretierte Hypotheseh : L1−→ C dieFehlerwahrscheinlichkeit(das Risiko) nach [8]definiert als

R∗(h) = P(h(x) 6= c(x)) .

SeiF die zuP gehorige Verteilungsfunktion undL eine Verlustfunktion mitL(h,x) =0, fallsh(x) = c(x), undL(h,x) = 1 sonst. Dann giltR∗(h) =

R

L(h,x)dF. Der Fehlereiner Hypotheseh auf einer endlichen MengeM als Schatzung des echten Fehlers istdefiniert als

R(h,M) =1‖M‖ ∑

x∈ML(h,x) .

Wurde die Hypotheseh aus einer TrainingsmengeS durch einen Lernalgorithmuserzeugt, so kann manR∗(h) zur Beurteilung (Schatzung) der Leistungsfahigkeit desVerfahrens fur‖S‖-elementige Trainingsmengen heranziehen, bzw. – da manR∗(h)nicht kennt – als Schatzung den TrainingsfehlerRtr(h) = R(h,S). Ist die Hypothe-sensprache genugend ausdrucksstark, so besitzen meist eine ganze Reihe von Hypo-thesen einen kleinsten Trainingsfehler. Deshalb bedeutetein kleiner Trainingsfehlernicht automatisch einen kleinen echten Fehler. Sind die Daten verrauscht, so stelltsich zusatzlich das Problem derUberanpassung an den Trainingsdatensatz (Over-fitting). Eine bessere Schatzung des Verfahrensfehlers stellt deshalb der TestfehlerRts(h) = R(h,T) dar, wenn eine zusatzliche TestmengeT gegeben ist.

Man kann die Varianz der Schatzung, die vonS bzw.T abhangt, durch den Cross-Validation-Test ([61]) vermindern. Hier wird die gesamte zur Verfugung stehende Da-tenmenge inv disjunkte und nahezu gleichgroße TeildatensatzeS1, . . . ,Sv zerlegt. Manberechnet nun inv Durchlaufenv mal den Testfehler. Dazu wird zunachst aus der je-weiligen TrainingsmengeS−Si eine Hypothesehi berechnet, und auf der MengeSi ihrTestfehler bestimmt. Ein Gutemaß fur das zur Konstruktion derhi verwendete Lern-verfahren ist dann der mittlere Testfehler

Rcv =1v

v

∑i=1

R(hi ,Si) .

Da die Teiltrainingsmengen weniger Elemente besitzen alsS, ist die Schatzung ver-zerrt. Gilt v = ‖S‖ = s, so spricht man auch von der Leave-One-Out-Methode. Beider Leave-One-Out-Methode ist die Verzerrung durch die Abweichung der Trainings-mengengroße minimal. Liegt ein Lernproblem mit reellen Klassenwerten vor, sokann man die Gute einer Hypothese mit Hilfe des mittleren quadratischen FehlersE(c(x)−h(x))2 beurteilen, d. h.L(h,x) = (c(x)−h(x))2.


Eine theoretische und empirische Analyse von verschiedenen Verfahren zur Bewer-tung und zum Vergleich von Klassifikatoren findet sich z. B. in[16]. Wir werden in die-ser Arbeit die innerhalb des maschinellen Lernens ublicheCross-Validation-Methodeoder die Leave-One-Out-Methode fur die Fehlerschatzungheranziehen und den in An-hang B dargestellten Test zum Vergleich von Lernverfahren verwenden.

2.3 CAL 2 und CAL 3

Im folgenden sollen die Verfahren CAL 2 und CAL 3 vorgestellt werden ([131,119]), dievon F. Wysotzki entwickelt wurden, und die zum Baumaufbau bei CRS bzw. INDIGO

verwendet werden. Das Lernverfahren CAL 2, das durch psychologische Experimen-te motiviert ist ([37]), ist eininkrementelles Entscheidungsbaumverfahren, mit demKlassifikatoren fur nominalwertige Merkmalsvektoren gelernt werden konnen. Nomi-nalwertige Attribute besitzen einen diskreten, endlichenWertebereich. Inkrementellbedeutet, daß die TrainingsmengeSnicht als Ganzes vorliegen muß, sondern als stati-onare Quelle aufgefaßt werden kann, die nach einer bestimmten Wahrscheinlichkeits-verteilung Trainingsbeispiele liefert (d. h.s= ∞ in (2.1)).

Im Prinzip kann man Entscheidungsbaume durch (geschachtelte) Funktionen oderspezielle markierte Graphen reprasentieren. Im folgenden soll fur sie eine an [119]angelehnte Termdarstellung eingefuhrt werden. Dazu muß vorausgesetzt werden, daßAttributfunktionen, Attributwerte und Klassenwerte syntaktisch reprasentiert werdenkonnen, d. h., daß es fur sie eine Darstellung als Zeichenkette gibt – beispielsweiseein Symbol oder eine Numerierung. In den folgenden Definitionen werden wir derEinfachheit halber jedoch nicht zwischen Reprasentationund Reprasentiertem unter-scheiden. Das Zeichen

”:“ trennt ein Attribut von der Liste der Unterbaume.

”→“ ist

ein Infix-Operator, der einem Attributwert einen Unterentscheidungsbaum zuordnet.Ein Baum kann mit

”[“ und

”]“ geklammert sein. Die im folgenden eingefuhrte forma-

le Darstellung fur Entscheidungsbaume wird auch von INDIGO und TRITOP genutzt.Beispiele fur Entscheidungsbaume finden sich in den entsprechenden Kapiteln.

Definition 2.3.1 (Entscheidungsbaum)Die Menge aller Entscheidungsbaume ist diekleinste Menge, fur die gilt:

1. Furc∈C ist D = c ein Entscheidungsbaum.D heißt Blatt.2. Seiend1, . . . ,dn Entscheidungsbaume,x j ein Attribut, und es seien Bedingungen

b1, . . . ,bn∈Xj gegeben. Dann ist der Ausdruck[x j : b1→ d1, . . . ,bn→ dn] ein Ent-scheidungsbaum. �

Unterentscheidungsbaume konnen durch eine Folge naturlicher Zahlen indiziert wer-den (i ·n ist eine Zahlenfolge, die miti beginnt und der Zahlenfolgen endet).

Definition 2.3.2 (Indizierung) Es seiD ein Entscheidungsbaum,n∈N ∗ eine Folgenaturlicher Zahlen undi∈N . Dann gilt:

1. D/ε = D

2.3. CAL 2 und CAL 3 17

2. FurD = [x j : b1→ d1, . . . ,bn→ dn] ist D/i ·n = di/n, wenn 1≤ i ≤ n.3. Sonst istD/n = ↑ (undefiniert).

Es ist Occ(D) = {n |n∈N ∗∧D/n 6= ↑} die Menge der gultigen Indizes vonD. �

Mit Hilfe der gultigen Indizes eines Baums konnen Unterb¨aume verandert werden.

Definition 2.3.3 (Veranderung von Baumen) Es seiD ein Entscheidungsbaum undn∈N ∗ eine Folge naturlicher Zahlen undi∈N . Dann gilt

1. D〈ε⇐D′〉= D′

2. FurD = [x j : b1→ d1, . . . ,bn→ dn] undi ·n∈Occ(D) ist D〈i ·n⇐D′〉= [x j : b1→d1, . . . ,bi→di〈n⇐ D′〉, . . . ,bn→dn] .

3. Furn 6∈Occ(D) ist D〈n⇐ D′〉= ↑. �

Die im folgenden definierte Klassifizierungsfunktionδ ordnet einem Entschei-dungsbaum eine Funktion zu, die zur Klassifikation von Merkmalsvektoren verwendetwerden kann. Der Klassifikationsweg kennzeichnet den Weg, den das klassifizierteObjekt im Baum nimmt.

Definition 2.3.4 (Klassifizierungsfunktionδ)

1. FurD = c ist δ(D)(x) = c mit den Klassifikationsweg Path(D,x) = ε.2. Fur einen EntscheidungsbaumD = [x j : b1→ d1, . . . ,bn→ dn] gilt δ(D)(x) = di(x)

und Path(D,x) = i ·Path(di,x), wenn fur genau eini gilt: x j(x) = bi . Sonst istδ(D)(x) = ↑ und Path(D,x) = ↑. �

Man kann einem EntscheidungsbaumD einen Graphen Graph(D) =(w,V,E,s, t, f ,g) mit einer KnotenmengeV, einer Wurzelw∈V, KantenE, Funktio-nens : E −→V (Source) undt : E −→V (Target), Knotenmarkierungsfunktionf undKantenmarkierungsfunktiong wie folgt zuordnen. O. E. setzt manV = Occ(D) undw = ε. Die Kantenmenge istE = {(n,n · i) |n,n · i∈Occ(D)} mit s((n,n · i)) = n undt((n,n · i)) = n · i (n · i sei die Zahlenfolge, die mitn beginnt und mit der Zahli endet).Die Knotenmarkierung ist definiert durchf (n) = c, falls D/n = c, und f (n) = x j , fallsD/n = [x j : b1→ d1, . . . ,bn→ dn]. Ist (n,n · i)∈E, D/n = [x j : b1→ d1, . . . ,bn→ dn],dann istg((n,n · i)) = bi .

2.3.1 Baumaufbau

Zum Aufbau eines Entscheidungsbaumes beginnt das Verfahren CAL 2 mit deminitialen Baum D(0) = ?, der das vollige Unwissen reprasentiert (? ist dieRuckweisungsklasse). Nun werden die Trainingsbeispielein S sequentiell betrachtet.In jedem Belehrungschritt vergleicht der Lernalgorithmusdie tatsachliche Klasse desneuen Objektes mit derjenigen Klasse, die sich aus der bereits erlernten Hypotheseergibt. Stimmen tatsachliche und berechnete Klasse nichtuberein, so wird die Hypo-these durch eine moglichst kleineAnderung so modifiziert, daß zumindest das zuletztgesehene Objekt richtig klassifiziert wird.


Es sei im(l +1)-ten Lernschrittschon der BaumD(l) gelernt worden, und es liegedas Beispiel(x,c) zur Belehrung vor. Giltδ(D(l))(x)= c, so wird das Trainingsbeispielrichtig klassifiziert, und die Hypothese wird nicht verandert, d. h., der Algorithmuswahlt

D(l+1) = D(l) .

Gilt hingegenδ(D(l))(x) = ?, so wird der Stern? im Baum durch die korrekte Klassec ersetzt, d. h., CAL 2 wahlt als neuen Baum

D(l+1) = D(l)〈Path(D(l),x)⇐ c〉 .

Gilt δ(D(l))(x) = c′ 6= c, so muß ein neuer Test eingefugt werden. Die Attributewerden dazu in einer festen, vorgegebenen Reihenfolge betrachtet. Es seij der Indexdes letzten Attributs auf dem Klassifikationsweg vonx. Gilt j < J, so gibt es noch einunbenutztes Attributx j+1. Mit Xj+1 = {b1, . . . ,bn} ist der neue Baum

D(l+1) = D(l)〈Path(D(l),x)⇐ [x j+1 : b1→ ?, . . . ,x j+1(x)→ c, . . . ,bn→ ?]〉 .

Gilt j = J, so sind alle Attribute verbraucht und der Algorithmus gibteine Fehler-meldung aus. In diesem Falle stehen nicht genugend Attribute zur Verfugung, um dieKlassen zu unterscheiden. Die Klassen sind dannnicht separierbar, und es muß aufein Lernverfahren fur statistische Klassenbildungen – z.B. CAL 3 – zuruckgegriffenwerden.

Das Lernverfahren terminiert, wenn entweder eine vorgegebene Lernschrittzahl er-reicht wird, ober aber, wenn es in einer vorgegebenen Anzahlvon Schritten keineAnderung des Baumes gegeben hat. Geht man nicht von einer stationaren Quelle son-dern von einer TrainingsmengeS aus, und wahlt man die Zahl der Lernschritte ohneAnderung des Baumes als‖S‖, so folgt aus dem Abbruchkriterium, daß die gesam-te Trainingsmenge richtig klassifiziert wird. In [119] wirdgezeigt, daß im Falle einerendlichen, separierbaren Trainingsmenge in jedem Fall eindie Trainingsmenge korrektklassifizierender Entscheidungsbaum gelernt wird.

2.3.2 Vereinfachung von Entscheidungsbaumen

Wysotzki gibt in [119] Regeln zur Vereinfachung von Entscheidungsbaumen an, dieauf McCarthy ([68,67]) zuruckgehen und die Vereinfachungvon Baumen erlauben(die folgende Darstellung ist gemaß [119]). Bei CAL 2 und CAL 3 ist die Reduktion derBaume besonders wichtig, da durch dieglobaleBewertung der Attribute haufigbe-dingt redundanteAttribute in den Baum mit aufgenommen werden, also Attribute, dienur einen einzigen (von? verschiedenen) Unterbaum besitzen. Bei den von INDIGO

erzeugten Baumen hat sich experimentell erwiesen, daß siesehr viele redundante At-tribute erhalten, so daß eine nachtragliche Vereinfachung der Baume unumganglichist. Die Frage der Redundanz oder Irrelevanz von AttributenundTeilenvon Attribut-definitionen spielt bei INDIGO eine besondere Rolle (Abschnitt 5.4).

2.3. CAL 2 und CAL 3 19

Definition 2.3.5 (Aquivalenz) EntscheidungsbaumeD undD′ heißen aquivalentD≈D′, wenn fur allex∈L1 gilt δ(D)(x) = δ(D′)(x). �

Es gilt die folgende Proposition.

Proposition 2.3.1 (Aquivalenz) Es seiD ein Entscheidungsbaum mit dem Unter-baumD′ = D/n. Gilt D′ ≈ D′′, so gilt auchD≈ D〈n⇐ D′′〉. �

Sei nunD = [x j : b1→ d1, . . . ,bn→ dn] ein Entscheidungsbaum, und seiπ eine Per-mutation der Menge{1, . . . ,n}. Dann ist der EntscheidungsbaumD′ = [x j : bπ(1) →dπ(1), . . . ,bπ(n)→ dπ(n)] aquivalent zuD. Wegen Proposition 2.3.1 bleibt die Semantikeines Baumes also unverandert, wenn man nur Tests in Unterbaumen umordnet. ZweiBaumeD undD′ sind aquivalent, wenn Graph(D) isomorph zu Graph(D′) ist.

Als Maß fur Komplexitat eines Entscheidungsbaumes wird in [119] diemittlereWeglange L(D) eines Entscheidungsbaumes eingefuhrt. Es sei dazu eine Wahrschein-lichkeitsverteilungP auf den BeispielenL1 definiert. Diese Verteilung induziert durchden Vorgang der Klassifikation eine WahrscheinlichkeitsverteilungP′ auf den Blattern(genauer: Blattknoten aus Graph(D) bzw. aus Occ(D)) B1, . . . ,Bn des Entscheidungs-baumes. Fur ein BlattBi sei l(Bi) die Lange des Weges im Baum, der zuBi fuhrt,d. h., wennBi = D/n, dann istl(Bi) = ‖n‖. Dann ist die mittlere WeglangeL(D) einesEntscheidungsbaumes als Erwartungwert der Weglange definiert, d. h.

L(D) =n

∑i=1

P′(Bi)l(Bi) .

Die Wahrscheinlichkeit eines BlattesBi kann mit Hilfe derjenigen Objekte der Traings-daten geschatzt werden, die bei der Klassifikation mit dem BaumD am BlattBi ”

an-kommen“. Mit den beiden folgenden Regeln zur Baumtransformation kann die mittlereWeglange verkleinert werden, wenn der Baum (bedingt)irrelevanteAttribute enthalt.

Definition 2.3.6 (Vereinfachungsregeln)Es seix ein Attribut mit dem WertebereichX = {b1, . . . ,bn} undD ein Entscheidungsbaum. Dann besagt dieSymmetrieregel, daßgilt

[x : b1→ D, . . . ,bn→ D]≈D .

Es seix′ ein Attribut mit den WertenX′ = {b′1, . . . ,b′n′}. Dann gilt nach derVertau-

schungsregelx : b1→ [x′ : b′1→ D1,1, . . . ,b′n′ →D1,n′ ]

...bn→ [x′ : b′1→ Dn,1, . . . ,b′n′ →Dn,n′ ]

≈x′ : b′1→ [x : b1→ D1,1, . . . ,bn→ Dn,1]

...b′n′ → [x : b1→D1,n′ , . . . ,bn→Dn,n′ ] �


Die Idee des Reduktionsverfahrens besteht nun darin, durchgeschicktes Anwen-den der Vertauschungsregel Tests mit gleichen Unterbaumen zu erzeugen, die mit derReduktionsregel vereinfacht werden konnen. SeiD ein Entscheidungsbaum mit einemUnterbaumD′ = D/n = [x : b1→ [x′ : b′1→D1,1, . . . ,b′n′ →D1,n′ ], . . . ,bn→ [x′ : b′1→Dn,1, . . . ,b′n′→Dn,n′]]. Es gebe einj, so daß fur allei undk gilt Di, j = Dk, j . Vertauschtman die Testsx undx′ – der neue Baum heißeD′′ –, so ist der TestD′′/n · j irrelevantunter der Bedingungen auf dem Wegn · j und kann mit der Symmetrieregel eliminiertwerden. Der neue Baum besitzt eine kleinere mittlere Weglange.

Neben bedingt irrelevanten Attributen bilden bedingt redundante Attribute einenAnsatzpunkt zur Reduktion von Entscheidungsbaumen.

Definition 2.3.7 Sei D ein Entscheidungsbaum mit einem UnterbaumD′ = D/n =[x : b1→ ?, . . . ,bi → di, . . . ,bn→ ?]. Der Testx heißt bedingt redundant unter denBedingungen auf dem Wegn. �

Ist x bedingt redundant, so kann man den BaumD′ zu di vereinfachen. Diese Umfor-mung ist keineAquivalenzumformung, jedoch andert sich das Klassifikationsverhal-ten fur Objekte der Trainingsmenge nicht. Das in [119] skizzierte Reduktionsverfahrenfindet nicht unbedingt den minimalen Entscheidungsbaum, dadazu u. U. die Symme-trieregel auch in der umgekehrten Richtung angewendet werden muß, wie einfacheBeispiele zeigen. Das Problem, einen minimalen Entscheidungsbaum zu finden, istNP-vollstandig (vgl. [49]). Man beachte, daß die Reduktionsregeln von McCarthy nurdann angewendet werden konnen, wenn der Baum

”schichtenweise“ aufgebaut ist. Da

bei CAL 2 die Attributreihenfolge global festgelegt wird, wird diese Eigenschaft durchden Baumaufbau gewahrleistet. Bei Baumen, die von ID3 (s. u.) gebildet werden, sinddie Reduktionsregeln i. a. nicht anwendbar.

2.3.3 Bewertung von Attributen

Ein wichtiger Punkt beim Aufbau von Entscheidungbaumen mit CAL 2 und CAL 3 istdie Auswahl einer geeigneten Reihenfolge fur die Attribute, mit der sie zum Baumauf-bau verwendet werden. Die informationstheoretische Bewertung der Trennfahigkeiteines Attributes ist weit verbreitet und wird im folgenden kurz dargestellt (zur Infor-mationstheorie s. z. B. [3] oder [44]). Sie findet sowohl bei den Verfahren CAL 2 undCAL 3 zur globalen Bewertung der Attribute Verwendung, als auchbei ID3 zur loka-len Auswahl eines besten Attributs. Beim Verfahren TRITOP steuert die im folgendendefinierteTransinformationdas Suchverfahren zur Konstruktion geeigneter Attribute.

Sei V eine diskrete Zufallsvariable mit dem Wertebereich{v1, . . . ,vn} und denWahrscheinlichkeitenp(vi). Dann ist die Unbestimmtheit oderEntropieder Zufalls-variablenV definiert als

H(V) =−n

∑i=1

p(vi) · log2 p(vi) .

2.3. CAL 2 und CAL 3 21

SeiW∈{w1, . . . ,wm} eine weitere Zufallsvariable. Dann ist die bedingte Entropie de-finiert durch

H(V|W) =−m

∑i=1

p(wi)(n

∑j=1

p(v j |wi)log2p(v j |wi)) .

Die bedingte Entropie ist ein Maß fur die verbleibende Unbestimmtheit der Zufallsva-riablenV, wennW schon beobachtet wurde. DieSynentropieoderTransinformationT(V,W) ist dann definiert als

T(V,W) = H(V)−H(V|W) = T(W,V) .

Die Transinformation gibt an, wie sich die Unbestimmtheit vonV durch Messen vonW verringert und kann zur Bewertung der Gute eines Attributes verwendet werden. Indiesem Fall entspricht die Klasse der ZufallsvariablenV, wahrend die ZufallsvariableW dem Attribut entspricht.

2.3.4 Nichtdisjunkte Klassen

Der Lernalgorithmus CAL 3 stellt eine Modifikation des Lernverfahrens CAL 2 furstatistische Klassenbildungen dar, bei denen sich z. B. durch Meßfehler die Klassenuberlagern. In diesem Falle sind die Klassen nicht mit Hilfe der gegebenen Attributeseparierbar. Es muß deshalb zu einem geeigneten Zeitpunkt beim Baumaufbau eineEntscheidung fur eine Klasse getroffen werden.

Bei CAL 3 werden zwei unterschiedliche Arten von Blattern betrachtet. SeiD einEntscheidungsbaum undB = D/n ein Blatt des Baumes.B ist entweder eine KlasseausC oder eine sog.Vereinigungsklasse. Im letzteren Fall ist fur jede Klassec∈C dieabsolute bzw. die relative Haufigkeithc(B) bzw.rc(B) fur das Auftreten eines Objektesaus der Klassec am BlattB definiert. CAL 3 besitzt zwei Parameter:

– eine SchwelleS1∈N , die angibt, ab welcher Anzahl von Objekten eine Entschei-dung uber dieDominanzeiner Klasse getroffen wird, und

– eine SchwelleS2∈(0.5,1], die angibt, ab welcher relativen Haufigkeit eine Klassealsdominierendbetrachtet werden soll.

Der Lernalgorithmus arbeitet wie folgt. Alsinitialen Baum D(0) wahlt man eineVereinigungsklasse, bei der fur allec∈C gilt rc(D(0)) = 0. Diese Vereinigungsklassereprasentiert jetzt das Unwissen?. Es sei nun schon der BaumD(l) gelernt. Im(l +1)-ten Schritt liege das Objekt(x,c) zur Belehrung vor. SeiB = D(l)/Path(D(l),x). Esgibt nun zwei Moglichkeiten. Das BlattB ist schon eine feste Klasse, d. h.B∈C. Dannbleibt der Baum unverandert, und eine evtl. auftretende Fehlklassifikation wird durchden Algorithmus in Kauf genommen.

WennB eine Vereinigungsklasse ist, dann geht man wie folgt vor. Sei B′ die Verei-nigungsklasse, die man erhalt, wenn man die Haufigkeitswerte rc(B) bzw. hc(B) furdas aktuelle Objekt(x,c) erhoht. Gilt nun∑c∈C hc(B) ≥ S1, d. h., sind mitx jetztmehr alsS1 Objekte inB angelangt, so wird gepruft, ob eine Klassec′ dominiert.


Eine Klassec′∈C dominiert genau dann, wenn fur die relative Haufigkeitrc′(B′)≥ S2

gilt. In diesem Fall wird furc′ als feste Klasse entschieden, und der neue Baum istD(l+1) = D(l)〈Path(D(l),x)⇐ c′〉. An dieser Stelle wird der Baum im folgenden nichtmehr verandert, d. h., alle auftretenden Falschklassifikationen werden als durch Rau-schen entstanden betrachtet.

Dominiert keine Klasse, d. h., gilt fur keine Klassec′ die Beziehungrc′(B′)≥S2, so

wird, falls vorhanden, der nachste Testx j+1 in der Attributreihenfolge betrachtet undD(l+1) = D(l)〈Path(D(l),x)⇐ [x j+1 : b1→ ?, . . . ,x j+1(x)→B′′, . . . ,bn→ ?]〉 gesetzt.B′′ ist eine neue Vereinigungsklasse, in die nur das aktuelle Objekte(x,c) eingetragenwird, d. h., es gilthc(B′′) = 1 undhc′(B′′) = 0 fur c′ 6= c.

2.4 ID3

Das von R. Quinlan entwickelte Entscheidungsbaumverfahren ID3 ([90]) gehort zurKlasse derDivide-And-Conquer-Algorithmen. Die Grundidee des Verfahrens bestehtdarin, bezuglich der gegebenen TrainingsmengeS ein bestes Attributx auszuwahlen,die TrainingsmengeS nach gleichen Werten vonx in UntermengenSi zu unterteilenund den Lernalgorithmus rekursiv auf jede der TeilmengenSi anzuwenden. Der Algo-rithmus stoppt dann, wenn die gerade betrachtete (Unter-) Trainingsmenge klassenreinist, d. h. nur Objekte derselben Klassec∈C enthalt. In diesem Falle wird ein Blatt derKlassec gebildet. Es wird auch dann ein Blatt konstruiert, wenn es kein Attribut mehrgibt, von dem die Klasse abhangt: Die Unabhangigkeit von Klasse und Attribut wirdmit Hilfe des aus der Statistik bekanntenχ2-Tests uberpruft (z. B. [26]). Gibt es keinAttribut, von dem die Klasse abhangt, und enthalt die gerade betrachtete Menge Ob-jekte aus unterschiedlichen Klassen, so nimmt man an, daß dies durch Rauschen undBeschreibungsungenauigkeiten entstanden ist. In diesem Fall ist es am gunstigsten,sich fur die bzw. eine haufigste Klasse zu entscheiden.

ID3 wird bei INDIGO als Alternative zu CAL 3 fur den Aufbau des Entscheidungs-baumes aus der transformierten Trainingsmenge verwendet.Bei TRITOP erfolgt derAufbau des Entscheidungsbaums ohne Transformation der Beispiele nach dem obendargestellten Prinzip, welches auch bei vielen anderen Lernverfahren Anwendung fin-det. Im Unterschied zu ID3 sind die Attribute bei TRITOP nicht vorgegeben, sondernmussen aus der Trainingsmenge konstruiert werden. Der im folgende dargestellteχ2-Test wird bei ID3 und TRITOP verwendet, um zu uberprufen, ob die Klasse tatsachlichvon einem Attribut abhangt.

2.4.1 Derχ2-Test

Das Attribut x habe b1, . . . ,bn mogliche Ausgange und es gebe KlassenC ={c1, . . . ,cc}. Fur 1≤ i≤n und 1≤ j ≤ c seihi, j die inSgemessene absolute Haufigkeit,daß der Attributwertbi zusammen mit der Klassec j auftritt. Es seihi,+ = ∑ j hi, j dieGesamthaufigkeit fur den Wertbi undh+, j entsprechend die Gesamthaufigkeit fur die

2.4. ID3 23

Klassec j . Geht man davon aus, daßx undC unabhangig sind, so istEi, j =hi,+h+, j

s dererwartete Wert fur das gemeinsame Auftreten von Wertbi und Klassec j . Man definiert

χ = ∑i, j

(hi, j −Ei, j)2

Ei, j

als normierte Summe der quadrierten Abweichungen der gemessenen Wertehi, j vonden erwarteten WertenEi, j . Die Statistikχ ist χ2-verteilt mit (n−1)(c−1) Freiheits-graden4. Es seiχ(n−1)(c−1),α dasα-Fraktil5 derχ2-Verteilung. Man lehnt die Hypothe-se der Unabhangigkeit von Attribut und Klasse dann ab, wenn

χ > χ(n−1)(c−1),α

gilt. Man kann die Statistikχ auch als Bewertungsfunktion fur Attribute verwenden.Man entscheidet sich dann fur dasjenige Attribut, das dengroßerenχ-Wert besitzt.

Quinlan verwendet in [90] eine Modifikation der Transinformation zur Bewertungder Attribute. Dieser sog.Information Gaineines AttributesV ist definiert als

G(V) =T(V,W)

H(V).

Es erfolgt also eine Normierung der Transinformation mit der Entropie des Attribu-tes, da die Transinformation Attribute mit vielen Testausgangen bevorzugt. Ein empi-rischer Vergleich verschiedener Bewertungskriterien fur Attribute findet sich in [72]und in [11]. Transinformation und Information Gain sind zurSelektion eines bestenAttributes bzw. zur Anordnung der Attribute bezuglich ihrer Gute geeignet.

Neben dem eigentlichen Baumaufbau sieht ID3 ein sog.Windowingvor. Es wer-den dabei nicht alle Objekte der Trainingsmenge zum Lernen verwendet, sondern derBaum aus einem Window, d. h. einer Teilmenge der Beispiele, gebildet. Anschließendwerden alle Objekte der Trainingsmenge mit dem so konstruierte Baum klassifiziert.Ist die Genauigkeit nicht ausreichend, so wird das Window umeinen bestimmten An-teil der falsch klassifizierten Objekte vergroßert und mitdem erweiterten Window einneuer Baum berechnet. Die Nutzlichkeit der Prozedur hat sich in eigenen Experimen-ten des Autors nicht bestatigt.

Das Lernsystem C4.5 ([88,89]) ist eine Erweiterung von ID3, bei der auch reell-wertige Attribute zur Beschreibung der Daten verwendet konnen. Beim Baumaufbauwird ein reelles Attributdiskretisiert, indem alle binarenSplitsder angeordneten Wert-menge des Attributes betrachtet werden. Man erhalt so aus einem reellwertigen Attri-but mitn vorkommenden Werten{b1, . . . ,bn} n binare Attribute, die auf≤ bi bzw.> bi

testen. Die so konstruierten nominalwertigen Attribute k¨onnen wie ublich mit einem

4 Man muß dazu noch annehmen, daß Klasse und Attribut normalverteilt sind.5 Dasα-Fraktil einer stetigen ZufallsvariablenX ist derjenige Wertx, fur denP(X≤ x) = 1−α

gilt.


Selektionskriterium bewertet werden. Die Erzeugung von Constraints bei TRITOP istan dieses Prinzip angelehnt.

Zur Steuerung der Baumkomplexitat kann bei C4.5 eine minimale Objektanzahlvorgegeben werden, die mindestens von zweiAsten jedes Tests eingehalten werdenmuß. Nach dem Baumaufbau wird der Baum durch ein bestimmtes Pruningverfahrenvereinfacht, das durch einen weiteren Parameter gesteuertwird. TRITOP besitzt alsahnliches Prinzip zur Beschrankung der Baumgroße die M¨oglichkeit, eine minimaleBlattunterstutzung vorzugeben.

Hiermit beschließen wir die Darstellung der propositionalen Lernverfahren undder fur CRS, INDIGO und TRITOP relevanten Aspekte von CAL 2, CAL 3 und ID3 undwenden uns im nachsten Abschnitt den graphbasierten Lernverfahren zu.

Kapitel 3

Graph- und produktbasierte Verfahren

In diesem Kapitel wird eineUbersicht uber die wichtigsten graph- und produktba-sierten Verfahren gegeben. Bei den produktbasierten Verfahren sind die Beispieleals logische Konjunktionen von Literalen mit Variablen gegeben, die jedoch als Re-prasentation von Graphen aufgefaßt werden bzw. durch Graphen reprasentiert wer-den (s. hierzu [122,40,53,54]). Im Gegensatz zu Verfahren der Induktiven LogischenProgrammierung wird bei produktbasierten Ansatzen angenommen, daß unterschiedli-che Variablen verschiedene Objekte denotieren. Wahrend in der Induktiven LogischenProgrammierung logische Programme (Hornklauseln) gelernt werden, ist bei den pro-duktbasierten Verfahren der Klassifikator ebenfalls ein Produkt oder eine Disjunktionvon Produkten, und die Klassifikation erfolgt durch Strukturvergleich und nicht durchResolution, d. h., die Sichtweise ist eher eine graphentheoretische.

Die dargestellten Ansatze sind vor allem fur die Einschatzung und Einordnung derVerfahren INDIGO und TRITOP von Bedeutung. Insbesondere sind die theoretischenResultate von Haussler in Abschnitt 3.2.1 zur Lernbarkeit von Konzepten auch furTRITOP relevant.

3.1 Graphbasierte Ansatze

Als einen der ersten graphentheoretischen Ansatze uberhaupt ist die Arbeit vonP. H.Winstonzu nennen. Dieser beschreibt in [126] ein Verfahren zum Lernen von Mo-dellbeschreibungen aus einer Folge von Beispielen, Gegenbeispielen und sog.

”Near

Misses“, die als markierte Graphen gegeben sind. Ein Near Miss ist ein instruktivesGegenbeispiel, welches sich nur geringfugig von Beispielen unterscheidet und durchdiesen Unterschied die notwendigen Eigenschaften der Beispiele verdeutlicht. Ausge-hend von einem ersten positiven Beispiel wird schrittweisedurch den Vergleich mitneuen Beispielen und Gegenbeispielen ein Konzeptgraph (ein sog. Modell) aufgebaut.Der Konzeptgraph besteht aus einem relationalen Skelett und sog. Vergleichsnotizen,welche anzeigen, welche Elementarattribute ein Knoten besitzen darf, bzw. welche Re-lationen zwischen Knoten auftreten konnen. Die Near Misses werden verwendet, umzu lernen, daß eine Relation unbedingt auftreten muß bzw. nicht auftreten darf. Tretenmehrere Unterschiede zwischen einem Beispiel oder Near Miss und dem bereits ge-lernten Konzeptgraphen auf, so konnen alternative Modelle generiert werden, die u. U.durch spatere Gegenbeispiele falsifiziert werden. Die Klassifikation erfolgt mit Hilfeder Eigenschaften und Relationen, die gelten mussen bzw. nicht gelten durfen, bzw.,wenn Modelle fur mehrere Konzepte gegeben sind, durch die großteAhnlichkeit zueinem der Modelle.

26 Kapitel 3. Graph- und produktbasierte Verfahren

Obwohl Winstons Arbeit insgesamt eine große Bedeutung als Pionierleistung furdas relationale Lernen zukommt, sind die meisten Fragen lediglich heuristisch gelost,auch wenn sie sich exakt losen ließen. Die Hauptkritikpunkte sind wie folgt.

1. Obwohl der Lernerfolg des Verfahrens extrem vom ersten Beispiel abhangt, wirdnicht gesagt, wie dieses gewahlt werden soll.

2. Der Match zwischen Konzeptgraph und Beispielgraph ist”obvious“ und wird

scheinbar nur mit Hilfe der Knoteneigenschaften festgelegt.3. Obwohl Disjunktionen fur einzelne Elementarattributeund Relationen gelernt wer-

den konnen, ist das Verfahren nicht in der Lage, disjunktive Konzepte zu lernen,die verschiedene Modellskelette erfordern.

4. Obwohl in praktischen Anwendungen ebenfalls Near Misseseine Rolle spielen,ist i. a. nicht im Vornehinein bekannt, welche Gegenbeispiele Near Misses sind.Winston verwendet diese Information jedoch direkt zum Lernen.

Die Verfahren INDIGO und TRITOP wurden so entwickelt, daß die gelernte Hypothesemoglichst wenig von der Reihenfolge abhangt, in der die Trainingsbeispiele betrachtetwerden. Aus Aufwandsgrunden laßt sich eine Reihenfolgeabhangigkeit jedoch meistnicht ganz vermeiden. Im Vergleich zur flachen Reprasentation der Hypothese bei Win-ston kann ein Entscheidungsbaum die Konjunktion, Disjunktion und Negation von At-tributen ausdrucken. Das Konzept der Near Misses wurde beiINDIGO und TRITOP ausoben genanntem Grund nicht verwendet.

Fast allen produkt- und graphbasierten Ansatzen ist gemein, daß keine Relatio-nen gelernt werden konnen, d. h., daß die Klasse immer der Gesamtstruktur und nichteinem Tupel von Elementarobjekten zugeordnet wird. Eine Ausnahme bilden dieAr-beiten von Wysotzki([130,119]) zur lernfahigen Klassifikation strukturierter Objekte,bei der neben der Klassifikation von Graphen auch diekontextabhangige Klassifikationvon Knoten und Kanten betrachtet wird. Der Ansatz CRS ist in Kapitel 4 ausfuhrlichbeschrieben und bildet die Grundlage fur das Verfahren INDIGO (Kapitel 5). Die Ver-fahren INDIGO und TRITOP stellen einen einheitlichen Ansatz fur die Graphklassifi-kation und zum Lernen von Relationen dar.

In eine ahnliche Richtung wie CRS zielt das in [108] beschriebeneVerfahren vonSobik und Sommerfeld. Dort wird bei einer gegebenen Menge von Beispielgraphen dieMenge aller induzierten Untergraphen bis zu einem vorgegebenen Grad zur Beschrei-bung der Beispiele verwendet. Der Attributwert fur einen Testgraphen bestimmt sichdurch das Vorkommen bzw. die Anzahl der Vorkommnisse des Testgraphen im Bei-spielgraphen. Wahrend sich [108] der Frage der Berechnungvon geeigneten Mengenklassentrennender Untergraphen widmet, wird in [107] ein Verfahren zur Konstruk-tion eines Entscheidungsbaums fur Graphen vorgestellt, das als Vorlaufer des Lern-verfahrens TRITOP in Kapitel 7 betrachtet werden kann. Der zugrundeliegende Ent-scheidungsbaumalgorithmus nimmt das Verfahren ID3 vorweg. Wie TRITOP ist dasVerfahren also ein Divide-And-Conquer-Algorithmus. Der Testgraph wird aus der je-weiligen Teiltrainingsmenge berechnet und dient zur Unterscheidung der Klassen indieser Teiltrainingsmenge. Der Testgraph wird aus einem beliebig gewahlten Paar von

3.1. Graphbasierte Ansatze 27

Graphen erzeugt und besitzt eine minimale Anzahl von Knoten. Es ist eine der Haupt-schwachstellen des Verfahrens, daß ansonsten keinerlei Qualitatsanforderungen, wiebeispielsweise eine moglichst gute Klassentrennung, formuliert werden. Ein weitererNachteil des Verfahrens besteht in der Verwendung von induzierten anstatt von allge-meinen Unter- bzw. Teilgraphen, wodurch bestimmte irrelevante Kanten nicht elimi-niert werden konnen.

Neben einigen allgemeinen Satzen zur Transformation von Graphen stellen So-bik und Sommerfeld in [108] einen abstandsbasierten Ansatzzur Klassifikation re-lationaler Strukturen vor. Die Distanz basiert auf dem kleinsten Knotengradm, abdem sich die induzierten Untergraphen der Ausgangsgraphenunterscheiden, wobeiin einer Version des Verfahrens noch die Anzahl des Vorkommens des Untergraphenberucksichtigt werden kann. Die Autoren zeigen, daß die Distanzd(G,H) = 1/m(nichtisomorphe Graphen) bzw.d(G,H) = 0 (isomorphe Graphen) sogar eine Metrikdarstellt, die sich vom sog. Zelinka-Abstand ([132]) unterscheidet, der auf dem Kon-zept des großten isomorphenUntergraphenberuht (zu Graphabstanden siehe auch [51]und [96,100,97,95,99,98,129]).

Obwohl die beiden Autoren den experimentellen Nachweis derTragfahigkeit ihresAnsatzes schuldig bleiben, greifen die in [108] vorgestellten Anwendungen (Klassi-fikation chemischer Substanzen, menschliche Problemloseprozesse, Soziologie) denneuentdeckten Anwendungen der ILP (z. B. [110]) vor. Insgesamt sind die Arbeitenvon Sobik und Sommerfeld wegweisend und haben m. E. in der Literatur des maschi-nellen Lernens zu wenig Beachtung gefunden.

Neuere Arbeiten von Kristina Schadler und Fritz Wysotzki zur abstands-basierten Klassifikation von Graphen mit konnektionistischen Methoden([96,100,97,95,99,98,129]) haben sich gegenuber den abstandsbasierten Verfah-ren der Induktiven Logischen Programmierung (z. B. [21,104,6,7]) als bezuglichihrer Lernraten sehr leistungsfahig und als sehr schnell herausgestellt.Ahnlichwie beim Zelinka-Abstand beruht hier die Distanz bzw.Ahnlichkeit zweier Gra-phen auf dem Prinzip der großten isomorphen Untergraphen,der mit Hilfe einesspeziellen Hopfield-Netzes aus einem sog. Kompatibilitatsgraphen bestimmt wird.Das Matchingverfahren1 von Kristina Schadler und Fritz Wysotzki kommt auchzur Berechnung von Prototypen aus von TRITOP oder INDIGO gelernten Entschei-dungsbaumen zur Anwendung, s. Kapitel 8.

In [9] wird ebenfalls ein Verfahren zum Matching von Graphenangegeben, wel-ches im Kontext des maschinellen Lernens angewendet werdenkann. Das Verfahren istjedoch auf Grund der notwendigen Vorverarbeitung (sog. Kompilierung) fur großereGraphen (mehr als 19 Knoten) nicht handzuhaben, so daß auf eine genauere Darstel-lung hier verzichtet sei.

Bei den graphbasierten Ansatzen zu nennen ist schließlichdas System HERAKLES

([45,101,46]). Zu HERAKLES existieren keine detaillierten Veroffentlichungen, so daß

1”Matching“ bedeutet hier die Bestimmung eines moglichst großen isomorphen Untergra-

phen von zwei oder mehreren Graphen.


sich die Leistungsfahigkeit des Verfahrens nur schwer einschatzen laßt. Das Verfah-ren beruht auf der heuristischen Berechnung von Klassifikationsregeln als speziellsteGeneralisierungen von Beispielgraphen mit Hilfe der in [96,100,97,95,99,98,129] dar-gestellten WTA-Netze, die jedoch im Unterschied zu den ursprunglichen Arbeiten auseinem Kompatibilitatsgraphen aufgebaut werden, der aus den Literalen des LGG ([84])gebildet wird. Die Regeln werden inkrementell in einen sog.Regelbaum (sog. RippleDown Rule) eingebaut, den man als Spezialfall eines binaren Entscheidungsbaumesauffassen kann. Regelbaume sind auf Grund der verwickelten Abarbeitungsstrategiefur den Menschen im Vergleich zu Entscheidungsbaumen schwer zu interpretieren (ge-schachtelte Ausnahmen) und besitzen nur eine eingeschrankte Ausdrucksfahigkeit.

3.2 Lernen mit Produkten

Die produktbasierten Ansatze besitzen bezuglich der Reprasentation von Beispielenund Konzepten große Gemeinsamkeiten mit TRITOP und INDIGO. Das erste produkt-basierte Verfahren ist der Ansatz von S.A. Vere ([122]), beidem ein disjunktives Kon-zept aus einer Reihe von Positivbeispielen und Gegenbeispielen gelernt wird. Ein Pro-dukt ist eine Konjunktion von positiven und negativen Literalen und kann durch einensog. Produktgraphen beschrieben werden. Ein Produktp1 ist eineGeneralisierungei-nes Produktesp2, wenn es eine Substitutionθ gibt, so daßp1 ⊆ p2θ gilt, wobei beiVere eine Substitution das Inverse einer Substitution im ublichen logischen Sinne ist.Vere definiert sog. Maximal Unifying Generalizations vonp1 und p2 als speziellsteProduktep, die allgemeiner alsp1 undp2 sind. Vere fuhrt die Berechnung von solchenGeneralisierungen auf die Konstruktion eines maximalen isomorphen Subgraphen derzu p1 und p2 gehorigen Produktgraphen zuruck und gibt einen heuristischen Algo-rithmus zur Berechnung der Generalisierungen an. In [123] wird der Ansatz auf dasLernen von relationalen Produktionen verallgemeinert, wobei Vere sich selbst insofernfalsch zitiert, als daß die GeneralisierungA≤B jetzt durchAθ⊆B definiert ist, und diespeziellsten Generalisierungen in [123]

”Maximal Common Generalizations“ (MCGs)

heißen. Aus Veres Aussagen uber die Lange und die Berechnung eines MCGs folgt,daß Vere annimmt, daßθ injektiv ist. Hintergrundwissen kann in Form einer Mengevon Fakten bereitgestellt werden, aus der mit Hilfe eines Kontextbildungsprozesses(sog. Association Chain) das relevante Wissen extrahiert wird.

Die MCGs von Vere haben starke Gemeinsamkeiten mit den speziellsten α-Generalisierungen bei TRITOP. Bei TRITOP konnen jedoch auch mehrstellige Rela-tionen gelernt werden, was auch bei der Bildung der speziellsten Generalisierungenberucksichtigt werden muß. Die speziellstenα-Generalisierungen bei TRITOP werdenim Unterschied zu Veres Arbeit mit Hilfe einesexaktenVerfahrens bestimmt, welchesum einheuristischesVerfahren zur Bestimmung von z. B. reellwertigen Constraintserganzt wurde.

In eine ahnliche Richtung wie die Arbeiten von Vere zielt das System SPROUTER

von Frederick Hayes-Roth und John McDermott ([42]), bei demaus einer Reihe vonPositivbeispielen gelernt wird, die als sog.

”Parameterized Structural Representations“

3.2. Lernen mit Produkten 29

(PSRs, s. auch [41]), das sind Frames, dargestellt werden. Zur Generalisierung derBeispiele wird das sog. Interference Matching eingefuhrt– eine heuristische Prozedurzur Berechnung von speziellsten Generalisierungen. Die Arbeiten von Hayes-Roth undVere nehmen eine Zwischenstellung zwischen den graphbasierten und logischen Ver-fahren ein, da sich das verwendete Generalisierungskonzept wie von Vere gezeigt aufdie Isomorphie von Untergraphen zuruckfuhren laßt. DasKonzept, daß ein Elementa-robjekt in der Generalisierung zweier Strukturen die Generalisierung von unterschied-lichen Elementarobjekten der Ausgangsstrukturen sein muß, bezeichnet Hayes-Rothals

”Object Integrity“. Diesen graphbasierten Ansatzen sehr verwandt sind die in Ab-

schnitt 6.4 beschriebenen Verfahren der Induktiven Logischen Programmierung zur

”Object Identity“.

3.2.1 Lernbarkeit

Abschließend wollen wir etwas ausfuhrlicher auf die Arbeit [40] von David Hausslerzum Lernen von konjunktiven Konzepten eingehen, die vor allem wegen ihrer theore-tischen Resultate fur TRITOP von Bedeutung ist.

Haussler definiert sog.existentielle konjunktive Ausdruckeals

∃∗x1, . . . ,xr f1∧ . . .∧ fs,

wobei fi eine Bedingung an ein ein- oder zweistelliges Attribut ist,welches entwedereine lineare oder baumstrukturierte Wertemenge besitzt. Sei A ein einstelliges Attri-bute undB ein zweistelliges Attribut. Fur baumstrukturierte AttributeA bzw. B sindA(x) = v bzw. B(x,y) = v zulassige Bedingungen, wobeiv ein fester Wert aus demWertebereichs des Attributs ist. Fur ein lineares Attribut sind die zulassigen Bedin-gungenv1 ≤ A(x) ≤ v2 bzw. v1 ≤ B(x,y) ≤ v2. Der Quantor∃∗ bedeutet:

”Es gibt

verschiedene Belegungen, so daß . . .“. Ein konjunktiver Ausdruck kann sowohl zurBeschreibung eines Beispiels als auch fur die Darstellungeines Konzeptes (mitv =?)verwendet und als Konzept- bzw. Instanzengraph dargestellt werden. Haussler etablierteine Generalisierungsbeziehung zwischen existentiellenAusdrucken, die auf einer in-jektiven Einbettung unter Berucksichtigung der Ungleichungen beruht. Aufgrund derNP-Vollstandigkeit des Problems der Untergraphisomorphie beschrankt Haussler dieAnzahl der Objekte in Szenen und Konzepten aufk. Er zeigt in seiner Arbeit das fol-gende Theorem, das die Komplexitat der Berechnung von Generalisierungen beleuch-tet.

Satz 3.2.1 (Theorem 1 nach [40])Das Problem zu bestimmen, ob es ein nichtleeresKonzept gibt, das mit einer Reihe vonm Beispielen konsistent ist, und das mit Hilfevon n ein- bzw. zweistelligen Attributen beschrieben wird, ist NP-vollstandig, sogarwenn jedes Beispiel genau zwei Objekte und keine Relationenbesitzt, und die einstel-ligen Attribute alle binar sind. �

Haussler zeigt, daß aus diesem Satz folgt, daß die Menge der speziellsten Genera-lisierungen bzw. die Menge der generellsten Spezialisierungen vonm Beispielen imschlimmsten Falle exponentiell groß ist (zu den sog.Version Spacess. auch [73]).


Das Resultat von Haussler macht klar, daß beijedemrelationalen Lernverfahren ge-eignete Maßnahmen zur Reduktion der Komplexitat getroffen werden mussen, wenndie Hypothesensprache des Lernverfahrens ungefahr die Ausdruckskraft der existenti-ellen konjunktiven Konzepte besitzt. D. h., Einschrankungen an die Art der lernbarenKonzepte bzw. heuristische Verfahren zur Induktion sind durch die Ausdruckskraftrelationaler Sprachen unumganglich.

Haussler zeigt außerdem in [40], daß existentielle konjunktive Konzepte nichtPAC-lernbar sind, selbst unter den Bedingungen von Satz 3.2.1 nicht. Valiants PAC-Lernbarkeit [120,2] ist nach [40] wie folgt definiert. Man nimmt an, daß die Folgeder Trainingsbeispiele durch eine unbekanntes, zu lernendes Konzept erzeugt wurde,und daß der verwendete Lernalgorithmus eine Hypothese aus derselben Sprache er-zeugt. Diese Hypothese soll mit einer Wahrscheinlichkeit von 1−δ einen Fehler vonhochstens 1− ε besitzen, wenn man den Lernalgorithmus auf eine zufallig gezogeneTrainingsmenge anwendet, deren Große polynomiell in der strukturellen Komplexitat(n undk) der Beispiele, die der Zielhypothese, 1/ε und 1/δ ist. Der Berechnungsauf-wand soll ebenfalls polynomiell in den genannten Parametern sein, und außerdem istdie Wahrscheinlichkeitsverteilung auf dem Instanzenraumbeliebig. Die Komplexitat,die durch die Konzepteinbettung beim Lernen entsteht, bleibt dabei unberucksichtigt,da die Anzahl der Objekte pro Szene aufk beschrankt ist. Gibt es einen Lernalgo-rithmus, der die genannten Bedingungen erfullt, so ist dieser Algorithmus ein PAC-Lernverfahren und die Hypothesensprache PAC-lernbar. Es sei an dieser Stelle dar-auf hingewiesen, daß die PAC-Lernbarkeit einer Hypothesensprache etwas uber dieSchwierigkeit des Lernproblems, aber nicht viel uber die Leistungsfahigkeit einesLernverfahrens beipraktischen Anwendungenaussagt, da meist nicht bekannt ist, inwelcher Hypothesensprache die zu lernende Klasseneinteilung adaquat ausgedrucktwerden kann. Deshalb muß die Verwendung eines PAC-Lernverfahrens nicht zu gutenund die Verwendung eines Lernverfahrens, das kein PAC-Lernverfahren ist, nicht zuschlechten Ergebnissen fuhren.

Man kann die wesentlichen Teile der existentiellen, konjunktiven Konzepte in dieHypothesensprache von TRITOP einbetten, d. h., man kann ein solches Konzept alseinfachen Entscheidungsbaum auffassen, der die Konzeptbeschreibung als Test enthaltund zwei Blatter besitzt. Das mit+ markierte Blatt wird uber den 1-Zweig des Testserreicht, das mit−markierte Blatt uber den 0-Zweig. Aufgrund der Einbettbarkeit derHypothesensprache sind relationale Entscheidungsbaumeebenfalls nicht PAC-lernbar.D. h., TRITOP ist kein PAC-Lernverfahren und seine heuristische Vorgehensweiseistgerechtfertigt, da es keine PAC-Lernverfahren fur die betrachtete Hypothesensprachegibt.

Als positives Resultat zeigt Haussler, daß man mit einer heuristisch erzeugten Hy-pothese, die gut auf den gegebenen Beispielen ist, mit hoherWahrscheinlichkeit aucheine Hypothese mit kleinem Fehler hat, wenn man voraussetzt, daß die sog. GrowthFunction nicht zu sehr wachst. Die Growth Function gibt fur eine Trainingsmengen-großem an, wieviele Unterteilungen einer Trainingsmenge in positive und negativeBeispiele die Hypothesensprache maximal ermoglicht. Gibt es zuviele Moglichkeiten,

3.2. Lernen mit Produkten 31

so wird die Wahrscheinlichkeit zu groß, daß man eine Hypothese findet, die zwar aufden Trainingsdaten gut ist, aber trotzdem einen hohen Fehler besitzt. Seik die ma-ximale Objektanzahl undn die maximale Anzahl der Relationen. SeiD eine Wahr-scheinlichkeitsverteilung aufX×{+,−}, wobeiX der Instanzenraum ist2. Dann gibtes fur jedes 1≤ s≤ nk2 eine Trainingsmengengroßem∈O( s

ε log knε ) aus der man ein

konjunktives Konzept im folgenden Sinne lernen kann. JederAlgorithmus, der auseinerm-elementigen zufallig gezogenen Trainingsmenge eine Hypothese mits Teil-formeln konstruieren kann, die auf hochstensεm/2 Beispielen falsch ist, hat mit einerWahrscheinlichkeit von mindestens 1−O(ke−εm) eine Hypothese gefunden, die einenkleineren Fehler alsε besitzt. Haussler folgert daraus, daß das Haupthindernis beimLernen von existentiellen konjunktiven Konzepten in der Komplexitat besteht, eineHypothese zu finden, die mit den Trainingsbeispielen konsistent ist.

Diese gunstige Vorhersage ist bei TRITOP nicht gegeben, da man mit relationa-len Entscheidungsbaumen immer die maximale Anzahl von moglichen Unterteilungender Trainingsmenge erhalt, da man die Trainingsbeispiele

”auswendig” lernen kann.

Praktisch bedeutet dies, daß ein TRITOP-Entscheidungsbaum einen schlechten Test-fehler besitzen kann, selbst wenn er einen guten Trainingsfehler besitzt, wobei die-ses Verhaltennicht auf Overfitting, d. h. aufUberanpassung bei verrauschten Daten,zuruckzufuhren ist. Dieses gilt fur die meisten relationalen Lernverfahren, da die Aus-drucksfahigkeit der Hypothesensprachen von praktisch anwendbaren Verfahren uberder der Sprache der existentiellen konjunktiven Konzepte liegt.

Einer der Hauptkritikpunkte an der Arbeit von Haussler, derauch fur die Arbeitenvon Vere bzw. Hayes-Roth und McDermott gilt, ist die nicht sehr ausdrucksfahigeHypothesensprache (keine Disjunktion, keine Negation, keine echte Relation lernbar),auf die das oben dargestellte positive theoretische Resultat zuruckzufuhren ist, durchdie das Verfahren aber in vielen praktischen Fallen (z. B. Pradiktion der Mutagenitatund Finite Element Mesh Design) schon einen schlechten Trainingsfehler besitzt.

Im Rest seiner Arbeit beschaftigt sich Haussler mit sog. Most Specific Genera-lizations, die im Prinzip den Maximal Unifying Generalizations von Vere und denMCGs von Hayes-Roth entsprechen, bis auf die Tatsache, daß die Ungleichungenberucksichtigt werden mussen, die die Hypothesensprache zulaßt. Haussler beweistdie PAC-Lernbarkeit von existentiellen konjunktiven Konzepten mit Subset-Queriesdurch die Angabe eines Verfahrens, daß auf der Berechnung von MCGs beruht.

2 Die Klasse kann insbesondere auch deterministisch festgelegt sein.

Kapitel 4

CRS – Propositionalisierung von Graphen

In diesem Kapitel wird der Ansatz CRS zur Induktion relationaler Konzepte dargestellt([119,130]). CRS stellt einen Vorlaufer von INDIGO dar. Da der Bezug der beidenSysteme nicht offensichtlich ist, wird CRS vergleichsweise ausfuhrlich beschrieben.Die Darstellung von INDIGO kann jedoch in weiten Teilen auch ohne Lesen diesesKapitels verstanden werden.

CRS beruht auf der graphentheoretischen Konstruktion von Attributen fur relatio-nale Strukturen, die eine Transformation der Trainingsbeispiele in Merkmalsvektorenerlaubt (Propositionalisierung). Die Trainingsbeispiele werden als strukturierte Ob-jekte dargestellt, die als Beschreibungen von markierten Graphen aufgefaßt werdenkonnen. Die grundlegende Idee von CRS besteht darin, ein strukturiertes Objekt durchEigenschaften der Klassen der sog.Automorphiepartitionzu beschreiben, die eine Par-tition der Knoten (Elementarobjekte) eines strukturierten Objekts nach gleichen

”Rol-

len“ darstellt.Die Klassen dieser Partition heißen auch transitive Klassen und sindvon den Klassen in der Trainingsmenge zu unterscheiden.

Welche Attribute bei der Transformation generiert werden,und die Anzahl der er-forderlichen Merkmalsvektoren pro Beispiel wird durch dieAutomorphiepartitionender strukturierten Objekte in der Trainingsmenge bestimmt, die bei CRS durch das Iso-morphieentscheidungsverfahren von Tinhofer ([47,48,115,117,116,118]) effizient cha-rakterisiert werden konnen (CRS stutzt sich vor allem auf die in [47] von Hintereggerentwickelte Variante des Isomorphieentscheidungsverfahrens von Tinhofer). Das Iso-morphieentscheidungsverfahren von Tinhofer liefert eine(approximative) Charakteri-sierung jeder transitiven Klasse der Automorphiepartition eines strukturierten Objekts,indem es den relationalen Kontext der Knoten einer Klasse ineiner Reprasentationdarstellt, die selbstkein strukturiertes Objekt, sondern ein Merkmalsvektor ist. Die-se Charakterisierung einer transitiven Klasse erlaubt dienormierte Bezeichnung ihrerElemente, bestehend aus dem Merkmalsvektor und einer Knotennummer, die inner-halb der Klasse der Knoten mit demselben Merkmalsvektor vergeben wird (die Par-tition der Knoten nach gleichen Merkmalsvektoren stellt i.a. eine Vergroberung derAutomorphiepartition dar.)

Man erhalt fur eine feste Numerierung der Knoten einer Knotenklasse eine nor-mierte Darstellung des zu transformierenden strukturierten Objekts in Form von sog.Tripeln. Jedes Tripel gibt fur zwei normiert, d. h. mit Hilfe des Merkmalsvektors, re-prasentierte Knoten die zwischen ihnen bestehenden Relationen an. Die Gesamtmen-ge aller Tripel der normierten strukturierten Objekte der Trainingsmenge wird als dieMenge derTripelattributebezeichnet und zur Beschreibung der strukturierten Objektedurch Merkmalsvektoren verwendet. Durch Permutation der Knotennummern inner-

33

halb einer Knotenklasse erhalt man fur jedes Beispiel eine isomorphieinvariante Men-ge von normierten Darstellungen und daraus eineReihe von MerkmalsvektorenproBeispiel. Merkmalsvektoren spielen also bei CRS an zwei Stellen eine Rolle:

1. Zur Darstellung von Tripelattributen (und von Kontextattributen, s. u.) als Charak-terisierung von transitiven Knotenklassen und

2. als Beschreibung von Beispielgraphen bei der Graphklassifikation, d. h. der Klas-sifikation strukturierter Objekte, bezuglich der Tripelattribute.

Weder beim Lernen noch bei der Klassifikation mussen neben den effizient cha-rakterisierten Automorphismen weitere Homomorphismen bestimmt werden, da dasder Transformation nachgeschaltete eigentliche Lernen und die Klassifikation nur dieden Beispielen zugeordneten Merkmalsvektoren betrachtet. Durch die Transformationin Merkmalsvektoren konnen die Entscheidungsbaumverfahren CAL 2 und CAL 3 zumeffizienten Aufbau einer Hypothese verwendet werden.

Die Merkmalsvektoren, die die Knotenklassen beschreiben,konnen auch direkt,d. h. nicht nur innerhalb eines Tripelattributs, zur Beschreibung eines strukturiertenObjekts verwendet werden. Ein solcher Merkmalsvektor wirddann alsKontextattributbezeichnet. Zur Ermittlung des Attributwerts fur ein Kontextattribut und ein struktu-riertes Objekt wird die Anzahl der Knoten im strukturiertenObjekt bestimmt, die dendurch das Attribut spezifizierten Vektor als Markierung besitzen. Der Attributwert istalso die Klassengroße der durch die Gleichheit der Knotenmarkierungsvektoren in-duzierten Knotenpartition. Mit dem Verfahren von Wysotzkikonnen auch – wie inder Einleitung dargestellt – Merkmalsvektoren fur die

”transitiven“ Kantenklassen be-

stimmt werden, die als Kantenattribute zusammen mit den Knotenattributen zur In-duktion verwendet werden konnen und mit den Tripelattributen kombinierbar sind.

Neben der Klassifikation von strukturierten Objekten betrachtet Wysotzki dieKlassifikation von Knoten innerhalb eines strukturierten Objekts, die sog.kon-textabhangige Klassifikation. Die Beschreibung der Knoten erfolgt im Unterschied zurGraphklassifikation direkt durch den Merkmalsvektor, der die transitive Klasse desKnotens charakterisiert. Tripelattribute konnen deshalb nicht verwendet werden. InAbschnitt 4.6 wird neben der kontextabhangigen Klassifikation von Knoten die kon-textabhangige Klassifikation von Kanten beschrieben, wobei zur Induktion der Merk-malsvektor verwendet wird, der die transitive Kantenklasse beschreibt.

Dieses Kapitel ist wie folgt gegliedert. Der Abschnitt 4.1 beschaftigt sich mit derModellierung von Graphen als strukturierte Objekte. Im Abschnitt 4.2 wird die Trans-formation eines strukturierten Objekts der Trainingsmenge in eine isomorphieinvarian-te Menge von Merkmalsvektoren beschrieben. Durch Kontextbildung, die iteriert wer-den kann, erhalt man eine kleinere Menge von Merkmalsvektoren (Abschnitt 4.3). DieVerwendung von Kontextattributen wird in Abschnitt 4.4 beschrieben. In Abschnitt 4.5geht es um die Induktion eines Klassifikators aus der transformierten Trainingsmengeund um die Klassifikation von Beispielen. Die Anwendung des Verfahrens fur die kon-textabhangige Klassifikation von Elementarobjekten wirdin Abschnitt 4.6 dargestellt.In Abschnitt 4.7 wird ein Ansatz zur Klassifikation von Transformationen und zur

34 Kapitel 4. CRS – Propositionalisierung von Graphen

Behandlung von irrelevanten und redundanten Attributen vorgestellt. In Abschnitt 4.8werden Eigenschaften, mogliche Modifikationen und Erweiterungen von CRS disku-tiert.

4.1 Strukturierte Objekte

Eine Beschreibung von Objekten unserer Umwelt besteht im allgemeinen aus sog.Elementarobjekten, die durch einen Satz vonElementarattributenbeschrieben werden,und die untereinander in bestimmtenRelationenstehen konnen. Die Abbildung 1.1(Einleitung) zeigt Konfigurationen oder Szenen aus Spielzeugbausteinen (aus der sog.

”Blocks World“), die durch markierte Graphen dargestellt werden konnen. Formal laßt

sich ein Graph als strukturiertes Objekt beschreiben.

Definition 4.1.1 (strukturiertes Objekt) Es sei V eine Menge von Elementar-objekten (Knoten) mit (totalen) einstelligen Attributenxi : V −→ Xi (1≤ i ≤ s1) und(totalen) zweistelligen Attributeny j : V×V −→Yj (1≤ j ≤ s2) mit den Werteberei-chenXi = {0,1} (1 ≤ i ≤ s1) und Yj = {0,1} (1 ≤ j ≤ s2). Es seienPi ⊆ V bzw.Q j ⊆V×V die von den Attributenxi bzw.y j induzierten Relationen, d. h., es gilt

v∈Pi gdw. xi(v) = 1 (1≤ i ≤ s1)

und(v,v′)∈Q j gdw. y j(v,v

′) = 1 (1≤ j ≤ s2) .

Dann istG = (V;P1, . . . ,Ps1;Q1, . . . ,Qs2)

ein strukturiertes Objekt. �

Die Begriffe”Elementarobjekt“ und

”Knoten“ werden im folgenden mit der gleichen

Bedeutung verwendet. Wir wollen außerdemjedesKnotenpaar(v,v′) ausV ×V mitv 6= v′ alsKantedes strukturierten Objekts bezeichnen (auch wennv undv′ in keinerRelation stehen, d. h. im zugehorigen Graphen durch eine Nullkante markiert sind).

In [119] wird als zusatzliche Bedingung an ein strukturiertes Objekt gefordert,daß die Menge der zweistelligen RelationenQ1, . . . ,Qs2 zu jeder RelationQ j auchdiekonverse Relation QTj enthalt, fur die mitv,v′∈V gilt: (v,v′)∈Q j gdw.(v′,v)∈QT

j .Ist eine RelationQ j symmetrisch, d. h., ist mit(v,v′)∈Q j auch(v′,v)∈Q j , so giltQ j = QT

j .Betrachtet man eine Reihe von strukturierten Objekten, so kann man o. E. anneh-

men, daß die zugehorigen Knotenmengen disjunkt sind. Man kann dann die Funktio-nenxi undyi als Funktionen der Vereinigung aller Knotenmengen auffassen.

Beispiel 4.1.1 (strukturiertes Objekt) Das erste TorG1 in Abbildung 1.1 wirddurch das strukturierte ObjektG1 = (V1;b1,p1;n1,d1,s1,sT,1) mit V1 = {v1

1,v12,v

13},

b1 = {v11,v

12,v

13}, p1 = {}, n1 = {(v1

1,v12),(v

12,v

11)}, d1 = {(v1

1,v12),(v

12,v

11)}, s1 =

4.1. Strukturierte Objekte 35

{(v11,v

13),(v

12,v

13)} und sT,1 = {(v1

3,v11),(v

13,v

12)} beschrieben (sT(v,v′) =

”v wird von

v′ getragen“). Das zweite Tor in Abb. 1.1 wird durchG2 =(V2;b2,p2;n2,d2,s2,sT,2)mit V2 = {v2

1,v22,v

23}, b2 = {v2

1,v22}, p2 = {v2

3}, n2 = {(v21,v

22),(v

22,v

21)}, d2 =

{(v21,v

22),(v

22,v

21)}, s2={(v2

1,v23),(v

22,v

23)} undsT,2={(v2

3,v21),(v

23,v

22)} dargestellt. �

Ein strukturiertes ObjektG kann durch seine Adjazenzmatrix beschrieben werden,die nicht nur wie in der Graphentheorie ublich die Adjazenzvon Knoten reprasentiert,sondern auch die bestehenden Relationen.

Definition 4.1.2 (Adjazenzmatrix,Ads(G))

1. Es seien fur Knotenv,v′∈V die Markierungsfunktioneny undx mit

y(v,v′) =

(1,x1(v), . . . ,xs1(v),y1(v,v), . . . ,ys2(v,v)) falls v = v′

(0,0, . . . ,0︸︷︷︸

s1 mal

,y1(v,v′), . . . ,ys2(v,v′)) sonst

undx(v) = y(v,v) definiert.2. Es sein = ‖V‖ der Grad vonG, und f : V↔{1, . . . ,n} eine Numerierung der

Knoten. Fur die Numerierungf ist die zugehorige AdjazenzmatrixAf (G) =(a j ,k)1≤ j ,k≤n durcha j ,k = y( f−1( j), f−1(k)) gegeben.

3. Die Menge aller Adjazenzmatrizen seiAds(G) = {Af (G) | f : V↔{1, . . . ,n}}. �

In der Definition von Ads(G) gibt es n! mogliche Numerierungenf , womit‖Ads(G)‖ ≤ n! gilt. Die Matrizen, die einem strukturierten Objekt durchdie Ver-wendung unterschiedlicher Numerierungenf zugeordnet sind, konnen mit Hilfe vonPermutationsmatrizen ineinander uberfuhrt werden (vgl. [119]).

Beispiel 4.1.2 (Adjazenzmatrix) Fur das TorG1 in Abbildung 1.1 ergibt sich mit derKnotennumerierungf (v1

1) = 1, f (v12) = 2, f (v1

3) = 3 die Adjazenzmatrix

Af (G1) =

(1,1,0,0,0,0,0) (0,0,0,1,1,0,0) (0,0,0,0,0,1,0)(0,0,0,1,1,0,0) (1,1,0,0,0,0,0) (0,0,0,0,0,1,0)(0,0,0,0,0,0,1) (0,0,0,0,0,0,1) (1,1,0,0,0,0,0)

. (4.1)

Durch Verwendung einer anderen Knotennumerierung erhaltman eine permutierteMatrix. �

Bei der Darstellung eines strukturierten ObjektesG durch die Menge seiner Ad-jazenzmatrizenAds(G) kann man sich ohne Informationsverlust auf solche Matrizenbeschranken, bei denen die Diagonale bezuglich einer beliebigen Ordnung≺ der Mar-kierungsvektoren aufsteigend angeordnet, d. h. normiert ist.

Beispiel 4.1.3 (Normierung) Zur Abkurzung fuhren wir die folgenden Bezeichnun-gen ein:

ub = (1,1,0,0,0,0,0), up = (1,0,1,0,0,0,0),wn+d = (0,0,0,1,1,0,0), ws = (0,0,0,0,0,1,0),wsT = (0,0,0,0,0,0,1), wε = (0,0,0,0,0,0,0),wn = (0,0,0,1,0,0,0).


Fur das strukturierte ObjektG1 in Abbildung 1.1 gilt fur die mitub ≺ up normierteMengeAds(G1) der Matrizen

Ads(G1) = {

ub wn+d ws

wn+d ub ws

wsT wsT ub

,

ub ws wn+d

wsT ub wsT

wn+d ws ub

,

ub wsT wsT

ws ub wn+d

ws wn+d ub

} .

Man hat also durch die Normierung keine Reduktion der Menge erreicht. Die MengeAds(G2) hingegen enthalt nur noch eine einzige Matrix,

Ads(G2) = {

ub wn+d ws

wn+d ub ws

wsT wsT up

} .

INDIGO verwendet im Gegensatz zur CRS eine syntaktische Darstellung fur dieBeispiele, d. h. nicht strukturierte Objekte, sondern Beschreibungen von strukturiertenObjekten, und bildet Adjazenzmatrizen, die Polynome in Relationssymbolen anstelleder binaren Merkmalsvektoren enthalten, s. Abschnitt 5.1. �

Man kann eine Adjazenzmatrix als die Darstellung eines vollstandigen, schlingenfrei-en Graphen mit markierten, gerichteten Kanten und markierten Knoten auffassen. Daszugehorige strukturierte Objekt beschreibt also gerade diesen Graphen. Die Betrach-tung des strukturierten Objekts statt des Graphen besitzt den prinzipiellen Vorteil, daßman Unterstrukturen durch Streichen einzelner Tupel in denRelationen erhalt. Be-trachtet man den markierten Graphen, so kann man nur Knoten streichen, d. h., manbetrachtet nur induzierte Unterstrukturen. Dies ist allerdings erst fur das VerfahrenINDIGO von Bedeutung, da die Klassifikation von CRS nicht auf Teil- bzw. Untergra-phen beruht.

In [103] wird ein unmarkierter GraphG als G = (V,E) definiert mit einerTragermengeV und einer KantenmengeE ⊆ V ×V. E stellt also eine Relation dar.Ein Homomorphismusθ von G = (V,E) nach G′ = (V ′,E′) wird als Abbildungθ : V −→V ′ definiert, fur die giltθ(E) := {(θ(v),θ(v′)) |(v,v′)∈E} ⊆ E′. Man kannein strukturiertes Objekt nun als(s1 + s2)-Tupel von unmarkierten, gerichteten Gra-phen zur selben KnotenmengeV auffassen, wenn man die einstelligen RelationenPi

auf zweistellige RelationenPi abbildet:Pi = {(v,v) |v∈Pi}. Wir definieren deshalbeinen Homomorphismus von strukturierten Objekten als simultanen Homomorphis-mus der zugehorigen unmarkierten Graphen1.

Definition 4.1.3 (Homomorphismus) Es seienG = (V ;P1, . . . ,Ps1;Q1, . . . ,Qs2) und

G′ = (V ′;P′1, . . . ,P′s1

;Q′1, . . . ,Q′s2) strukturierte Objekte.

1. Ein Homomorphismus ist eine Abbildungθ : V −→V ′ mit θ(Pi) ⊆ θ(P′i ) fur 1≤i ≤ s1 undθ(Qi)⊆ θ(Q′i) fur 1≤ i ≤ s2. Wir schreiben auchθ : G−→G′.

1 Wir betrachten also nicht den Algebrahomomorphismus, weildieser keine Generalisierunguber einzelne Relationstupel erlauben wurde.

4.2. Transformation in Merkmalsvektoren 37

2. Ein injektiver Homomorphismus heißt Monomorphismus. Existiert ein Monomor-phismusθ : G−→G′, so heißtG auch Teilstruktur vonG′.

3. G und G′ heißen isomorph (G≈ G′), wenn es eine Bijektionθ : V ↔V ′ gibt mitθ(Pi) = θ(P′i ) fur 1≤ i ≤ s1 undθ(Qi) = θ(Q′i) fur 1≤ i ≤ s2. �

Zwei strukturierte ObjekteG undG′ sind isomorph, wenn es zwei Homomorphismenθ : G−→G′ und θ′ : G′ −→G gibt. θ und θ′ sind notwendigerweise Monomorphis-men.

Beispiel 4.1.4 (Isomorphie)Ein zu G1 isomorphes Tor ist G′1 mit G′1 =

(V1′ ;b1′ ,p1′;n1′,d1′,s1′,sT,1′), wobeiV1′ = {v1′1 ,v1′

2 ,v1′3 }, b1′ = {v1′

1 ,v1′2 ,v1′

3 }, p1′ = {},n1′ = {(v1′

2 ,v1′3 ),(v1′

3 ,v1′2 )}, d1′ = {(v1′

2 ,v1′3 ),(v1′

3 ,v1′2 )}, s1′ = {(v1′

2 ,v1′1 ),(v1′

3 ,v1′1 )} und

sT,1′={(v1′1 ,v1′

2 ),(v1′1 ,v1′

3 )} ist. �

Fur ein strukturiertes ObjektG heißt ein Isomorphismusθ : V −→V Automorphis-musvon G. Die MengeAut(G) aller Automorphismen vonG bildet die Automor-phismengruppevon G. Die Menge der KnotenV von G wird durch die Automorphis-mengruppe in sog.transitive Klassenzerlegt, die die AutomorphiepartitionPAut(G)bilden. Zwei Knotenv,v′ ∈V liegen in derselben transitiven Klasse, wenn es einenAutomorphismusθ∈Aut(G) gibt mit θ(v) = v′. Mit einer entsprechenden Bedeutungwollen wir von transitiven Kantenklassen sprechen. Fur CRSspielen nur Automorphis-men und Isomorphismen eine Rolle.

Beispiel 4.1.5 (Automorphismen)Das strukturierte ObjektG1 in Abbildung 1.1besitzt die AutomorphismenAut(G1) = {{v1

1 7→ v11,v

12 7→ v1

2,v13 7→ v1

3},{v11 7→

v12,v

12 7→ v1

1,v13 7→ v1

3}}. Es ergibt sich somit die AutomorphiepartitionPAut(G1) ={{v1

1,v12},{v

13}}. �

4.2 Transformation in Merkmalsvektoren

Zum Lernen eines Begriffes sei nun entsprechend (2.1) eine TrainingsmengeS ={(G1,c1), . . . ,(Gs,cs)} von klassifizierten strukturierten ObjektenGi gegeben, wobeiVi ∩Vj = {} fur i 6= j gelten soll – man kann dannx (bzw.y) als Funktion der Vereini-gung aller Elementarobjekte auffassen. Gesucht ist die intensionale Darstellung einerKlassifikationsfunktion, die von den klassifizierungsrelevanten ein- und zweistelligenRelationen der Trainingsobjekte abhangt und die strukturierten Objekte inS richtigklassifiziert.

Beispiel 4.2.1 (Graphklassifikation) Im folgenden wird die Trainingsmenge

S0 = {(G1,+),(G2,+),(G3,−),(G4,−)}

fur das Konzept”Tor“ mit den strukturierten Objekten aus Abbildung 1.1 (Einleitung)

betrachtet. �


Beim Lernen bzw. der Klassifikation tritt – wie schon erwahnt – das Problemauf, daß dasselbe strukturierte Objekt in syntaktisch verschiedenen Reprasentationenvorliegen kann. Da es wunschenswert ist, daß die gelernte Hypothese zumindest diestrukturierten Objekte der Trainingsmenge korrekt klassifiziert, auch wenn sie in einerisomorphen Variante vorliegen, wird im folgenden die Transformation eines struk-turierten ObjektsG∈S in eine isomorphieinvariante Menge von MerkmalsvektorenVecs(G) beschrieben. Die Transformation hangt nicht von der vorliegenden Klassifi-zierung sondern nur von der Struktur des Beispiels ab.

Zur Definition der Transformation betrachtet man eine beliebige Anordnung� derVektoren aus imgx, d. h. imgx = {u1, . . . ,uU}, wobei ui ≺ u j fur i < j gilt. Ent-sprechend seiw1, . . . ,wW eine Anordnung der Vektoren in imgy, die zur Anordnungvon imgx konsistent ist. Mit Hilfe der inSvorkommenden unterschiedlichen Knoten-markierungenu1, . . . ,uU definiert man fur ein strukturiertes ObjektG ein geordnetesMengensystem der Knoten durch

Px(G) = (ξu(G))u∈img x

ξu(G) = {v∈V |x(v) = u} .

Px ist keine Partition, da eine Mengeξu(G) leer sein kann. Streicht man jedoch inPx(G) die leeren Mengen, so erhalt man eine geordnete PartitionPx(G) der Kno-ten nach unterschiedlichen Knotenmarkierungen. Man kann zeigen, daß die PartitionPx(G) eine Vergroberung der AutomorphiepartitionPAut(G) darstellt (s. Satz 4.3.1).

Fur mit θ isomorphe strukturierte ObjekteG1 undG2 gilt θ(Px(G1)) = Px(G2),wobei θ(ξu(G1)) = {θ(v) |v ∈ ξu(G1)} ist. Man nennt dann die MengensystemePx(G1) und Px(G2) (und die einzelnen Mengen) adjungiert. Ist nicht bekannt, obdie ObjekteG1 undG2 isomorph sind, so kann man sich beim Testen moglicher Iso-morphismen auf solche Abbildungenθ beschranken, fur die das Bild eines Knotensausξu(G1) in der (moglicherweise adjungierten) Mengeξu(G2) liegt. Dadurch sinktnach [117,119] die Anzahl der zu betrachtenden Kandidaten fur Isomorphismen vonn! auf ∏u ‖ξu‖!. Besitzen die Mengenξu(G1) undξu(G2) nicht dieselbe Machtigkeit,so gibt es keinen Isomorphismus.

Analog zuPx wird ein Mengensystem fur Knotenpaare durch

Py(G) = (ηu(G))u∈img y

ηu(G) = {(v,v′)∈V×V |y(v,v′) = u}

mit zugehoriger PartitionPy(G) definiert. Da imgx ⊆ img y gilt, und Knoten- undKantenmarkierungen unterschieden sind, enthaltPy(G) das SystemPx(G) als eineArt Teilsystem – genauer: es gilt{(v,v) |v∈ξu(G)}= ηu(G).

Im folgenden soll die Konstruktion der Merkmalsvektoren eines BeispielsG dar-gestellt werden. Der Merkmalsvektor kann bezuglich einernormierten Numerierungfdirekt ausG konstruiert werden, oder aber – wie in [119] dargestellt – aus den unter-schiedlichen normierten Adjazenzmatrizen inAdsi(G) ohne Berucksichtigung der die

4.2. Transformation in Merkmalsvektoren 39

Attribut G1 G1 G1 G2

(ub,1) 1 1 1 1(ub,2) 1 1 1 1(ub,3)) 1 1 1 0(up,1) 0 0 0 1(wn+d,(ub,1),(ub,2)) 1 0 0 1(ws,(ub,1),(ub,3)) 1 0 0 0(wn+d,(ub,2),(ub,1)) 1 0 0 1(ws,(ub,2),(ub,3)) 1 0 0 0(wsT ,(ub,3),(ub,1)) 1 0 0 0(wsT ,(ub,3),(ub,2)) 1 0 0 0(ws,(ub,1),(ub,2)) 0 1 0 0(wn+d,(ub,1),(ub,3)) 0 1 0 0(wsT ,(ub,2),(ub,1)) 0 1 0 0

Attribut G1 G1 G1 G2

(wsT ,(ub,2),(ub,3)) 0 1 0 0(wn+d,(ub,3),(ub,1)) 0 1 0 0(ws,(ub,3),(ub,2)) 0 1 0 0(wsT ,(ub,1),(ub,2)) 0 0 1 0(wsT ,(ub,1),(ub,3)) 0 0 1 0(ws,(ub,2),(ub,1)) 0 0 1 0(wn+d,(ub,2),(ub,3)) 0 0 1 0(ws,(ub,3),(ub,1)) 0 0 1 0(wn+d,(ub,3),(ub,2)) 0 0 1 0(ws,(ub,1),(up,1)) 0 0 0 1(ws,(ub,2),(up,1)) 0 0 0 1(wsT ,(up,1),(ub,1)) 0 0 0 1(wsT ,(up,1),(ub,2)) 0 0 0 1

Tabelle 4.1:Vecs(G1) undVecs(G2): Die Merkmalsvektoren furG1 undG2.

Matrizen erzeugenden Numerierungen. Wir gehen im folgenden den ersten Weg. EineNumerierungf heißt normiert, wennAf normiert ist.

Zur Konstruktion des Merkmalsvektorszf fuhrt Wysotzki eine normierte Benen-nungβ der KnotenV vonG ein, indem er die Knoten innerhalb der Klassen numeriertund sog. Tripel bildet.

Definition 4.2.1 (Tripel) Es seienv,v′∈V Knoten undf eine Numerierung der Kno-ten vonG. Die Werte vonx seien mit≺ geordnet. Dann ist mit der neuen Benennung

β(v) = (x(v), ( f (v)− ∑u≺x(v)

‖ξu(G)‖) )

das zuv undv′ gehorendeTripel definiert durch

t f (G)(v,v′) = t(v,v′) = (y(v,v′),β(v),β(v′)) . �

Man beachte, daß in dieser Definition die Knotenbenennungenβ(v) undβ(v′) struktu-relle Informationen des strukturierten Objekts kodieren.Man konstruiert nun mit Hilfeder Tripel die MatrixAf (G) = (a j ,k)1≤ j ,k≤n mit den Eintragen

a j ,k =

{β( f−1( j)) falls j = kt( f−1( j), f−1(k)) sonst.

Es seiTrips(G) die Menge der so erzeugtenTripelmatrizenvon G.Aus den Tripelmatrizen werden nun die Merkmalsvektoren wiefolgt konstruiert.

Es sei imgβ = {u1, . . . , uU} die angeordnete Menge aller inS vorkommenden neu-en Knotenbelegungen, und imgt = {w1, . . . , wW} die angeordnete Menge aller inS


vorkommenden Tripel. Aus der TripelmatrixAf = (a j ,k)1≤ j ,k≤n konstruiert man imnachsten Schritt den zuf gehorigenMerkmalsvektor

zf = (v1, . . . ,vU ,vU+1, . . . ,vU+W)

indem man fur 1≤ i ≤ U

vi =

{1 wenn es einj gibt mit a j , j = ui

0 sonst

und furU < i ≤ U +W

vi =

{1 wenn esj undk ( j 6= k) gibt mit a j ,k = wi−U

0 sonst

setzt. D. h., der Vektor enthalt genau dann eine 1, wenn die zugehorige Matrix denbetreffenden Diagonaleintrag bzw. das betreffende Tripelenthalt.

Die MengeVecs(G) aller Merkmalsvektoren vonG erhalt man, indem man allenormierten Knotennumerierungenf betrachtet, und den zugehorigen Merkmalsvek-tor zf bildet. Die MengeVecs(G) = {zf | f normiert} reprasentiertG eindeutigundisomorphieinvariant(vgl. [119] und Satz 4.3.3).

Beispiel 4.2.2 (Merkmalsvektoren)Fur das strukturierte ObjektG1∈S0 erhalt manman ausAds(G1) bzw. den Numerierungen, die den Adjazenzmatrizen zugeordnetsind, die Tripelmatrizen

(ub,1) (wn+d,(ub,1),(ub,2)) (ws,(ub,1),(ub,3))

(wn+d,(ub,2),(ub,1)) (ub,2) (ws,(ub,2),(ub,3))

(wsT ,(ub,3),(ub,1)) (wsT ,(ub,3),(ub,2)) (ub,3)

,

(ub,1) (ws,(ub,1),(ub,2)) (wn+d,(ub,1),(ub,3))

(wsT ,(ub,2),(ub,1)) (ub,2) (wsT ,(ub,2),(ub,3))

(wn+d,(ub,3),(ub,1)) (ws,(ub,3),(ub,2)) (ub,3)

,

(ub,1) (wsT ,(ub,1),(ub,2)) (wsT ,(ub,1),(ub,3))

(ws,(ub,2),(ub,1)) (ub,2) (wn+d,(ub,2),(ub,3))

(ws,(ub,3),(ub,1)) (wn+d,(ub,3),(ub,2)) (ub,3)

.

Trips(G2) ist

{

(ub,1) (wn+d,(ub,1),(ub,2)) (ws,(ub,1),(up,1))

(wn+d,(ub,2),(ub,1)) (ub,2) (ws,(ub,2),(up,1))

(wsT ,(up,1),(ub,1)) (wsT ,(up,1),(ub,2)) (up,1)

} .

Aus den Tripelmatrizen ergeben sich schließlich die Merkmalsvektoren in Tabelle 4.1.Auf die Darstellung der Tripelmatrizen und Merkmalsvektoren vonG3 und G4 wirdverzichtet. �

4.3. Kontextbildung 41

4.3 Kontextbildung

Es ist moglich, die Anzahl der zur Beschreibung eines strukturierten ObjektesGnotwendigen Merkmalsvektoren weiter einzuschranken. Dazu verfeinert man ausge-hend vom MengensystemPx(G) die zugehorige Partition der KnotenPx(G), bis imgunstigsten Falle die AutomorphiepartitionPAut(G) erreicht wird. Zur feineren Unter-scheidung der Knoten wird derKontexteines Knoten verwendet, d. h. seine ein- bzw.auslaufenden Kanten.

Fur w,w′∈ img y definiert man dieKontextbeschreibungsattribute nw,w′ (vgl. Ein-leitung) durch

nw,w′(v,v′) = ‖{v∗ |y(v,v∗) = w∧y(v′,v∗) = w′}‖ . (4.2)

In nw,w′(v,v′) werden die Knotenv∗ gezahlt, die in einem

”Dreieck“ liegen, das von

den Knotenv undv′ und den mitw undw′ markierten Knotenpaaren gebildeten wird.Dadurch unterscheidet das Attributnw,w′(v,v

′) Knoten bzw. Kanten bezuglich der inAbbildung 4.1 dargestellten Konfigurationen. Wir werden inAbschnitt 5.2 zeigen, daßdiese Kontextbildung einer formalen Multiplikation der Adjazenzmatrix entspricht.

Es sein(v,v′) eine beliebige aber feste Anordnung dernw,w′(v,v′). Man kann nundie neue Indikatorfunktion

y′ = y ./ n (4.3)

als Konkatenation der ursprunglichen Beschreibung mit dem Vektor der Kontextbe-schreibungsattribute definieren. Die neue Knotenindikatorfunktion ist durch

x′ = x ./ λv.n(v,v) (4.4)

gegeben, wobei der Ausdruckλv.n(v,v) aus der eigentlich zweistelligen Funktionneine einstellige Abbildung macht.

Durch iteriertes Anwenden der Verfeinerungen (4.3) und (4.4) erhalt man ausge-hend vony0 = y, x0 = x undn0 = n eine Folge von Indikatorfunktionenyi , xi , ni mitden zugehorigen SystemenPyi (G) undPyi (G) bzw. Pxi (G) undPxi (G). Man kannzeigen, daß die Knoten- und Kantenpartitionen fur isomorphe strukturierte Objekteadjungiert sind.

w’v

w’ ww’w’

wv

v*

v’

e) v=v’=v*, w=w’

v

v*w

v* v’

w

v’w’

v*

v v’ v’ v v*w

b) v=v* c) v’=v* d) v=v’, w=w’a)

Abbildung 4.1: Mogliche Konfigurationen des strukturierten Objektes, die zum Wert der Kon-textbeschreibungsattributenw,w′(v,v′) beitragen:a) allgemeiner Fallb)-e)v∗ ist mit v oder/undv′ identisch.


Den Zusammenhang zwischen den Mengensystemen aufeinanderfolgender Itera-tionsstufen stellt der folgende Satz her (≥ steht fur die Verfeinerungsbeziehung zwi-schen Partitionen – Verfeinerungen einer Partition erhalt man durch weitere Untertei-lung der Klassen).

Satz 4.3.1 (Verfeinerung, [119])Es gilt Pyi (G) ≥ Pyi+1(G), Pxi (G) ≥ Pxi+1(G),Pyi(G) ≥Pyi+1(G), undPxi (G)≥Pxi+1(G)≥PAut(G). �

Aufgrund der Endlichkeit aller Mengen, der Monotonie und Beschranktheit derPartitionenfolge tritt nach endlich vielen Schritten ein stationarer Zustand ein. Diesspielt vor allem fur die Anwendung des Verfahrens zur Entscheidung der Isomorphiezweier strukturierter Objekte eine Rolle. Bei Lernen wird man die gewunschte Kon-texttiefe, d. h. ein maximalesi, i. a. vorgeben, da sie nicht nur die Feinheit der Partitionsondern auch die Generalisierungsfahigkeit der Attribute beeinflußt.

Satz 4.3.2 (Terminierung, [47]) Es gibt eini∗ mit Pxi∗ = Pxi bzw. Pxi∗ = Pxi furi ≥ i∗. �

Zur Konstruktion der Merkmalsvektoren gehen wir wie im letzten Abschnitt vor.Wir betrachten wieder eine beliebige Anordnung� der Vektoren aus imgxi , d. h.img xi = {u1, . . . ,uU}, wobeiui ≺ u j fur i < j gilt. Entsprechend seiw1, . . . ,wW ei-ne Anordnung der Vektoren in imgyi, die zur Anordnung der Werte von imgxi kon-sistent ist. Fur ein festesG∈S und eine feste Numerierungf erhalt man die MatrixAi

f (G) = (aij ,k)1≤ j ,k≤n mit ai

j ,k = yi( f−1( j), f−1(k)). Man definiert die Menge allernormierten Adjazenzmatrizen der Iterationsstufei als

Adsi(G) = {Aif | f : V↔{1, . . . ,n}∧Ai

f normiert} .

f heißt normiert, wennAif normiert ist.

Zur Konstruktion des Merkmalsvektorszif von G betrachten wir wie im letzten

Abschnitt eine normierte Benennungβi der KnotenV von G,

βi(v) = (xi(v), ( f (v)− ∑u≺xi(v)

‖ξiu(G)‖) ) .

Das zuv undv′ gehorendeTripel ist definiert durch

t if (G)(v,v′) = t i(v,v′) = (y(v,v′),βi(v),βi(v′)) .

Man konstruiert nun mit Hilfe der Tripel die MatrixAif (Gu) = (ai

j ,k)1≤ j ,k≤n mit denEintragen

aij ,k =

{βi( f−1( j)) falls j = kt i( f−1( j), f−1(k)) sonst.

Es seiTripsi(G) die Menge derTripelmatrizender i-ten Iteration.

4.4. Kontextattribute 43

Aus den Tripelmatrizen werden nun die Merkmalsvektoren wieim letzten Ab-schnitt konstruiert: Es sei imgβi = {u1, . . . , uU} die beliebig angeordnete Menge al-ler in S vorkommenden neuen Knotenbelegungen, und imgt i = {w1, . . . , wW} dieangeordnete Menge aller inS vorkommenden Tripel. Aus der TripelmatrixAi

f =

(aij ,k)1≤ j ,k≤n konstruiert man im nachsten Schritt den Merkmalsvektor

zif = (v1, . . . ,vU ,vU+1, . . . ,vU+W)

indem man fur 1≤ i ≤ U

vi =

{

1 wenn es einj gibt mit aij , j = ui

0 sonst

und furU < i ≤ U +W

vi =

{

1 wenn esj undk ( j 6= k) gibt mit aij ,k = wi−U

0 sonst

setzt. Man erhalt so die MengeVecsi(G) der das strukturierte ObjektG in der i-tenIterationsstufe beschreibenden Merkmalsvektoren, fur die der folgende Satz gilt.

Satz 4.3.3 (Darstellung durch Tripel) SeiAdsi(G) die Menge der normierten Adja-zenzmatrizen eines strukturierten ObjektesG. SeiVecsi(G) = {zi

f | f Num. undAif ∈

Adsi(G)} die Menge der zuG gehorigen Merkmalsvektoren.G1 undG2 seien struk-turierte Objekte. Dann gilt:

1. SindG1 undG2 isomorph, dann giltVecsi(G1) = Vecsi(G2) fur alle i.2. G1 undG2 sind isomorph, wennVecsi(G1) = Vecsi(G2) fur ein i gilt. �

Beweis siehe [119].Die Anzahl der erzeugten Merkmalsvektoren laßt sich abschatzen durch

‖Vecsi(G)‖ ≤ ∏ξ∈Pxi‖ξ‖!. Ist außerdemPAut = Pxi∗ , dann gilt fur die Menge der

Merkmalsvektoren‖Vecsi∗(G)‖ ≤∏ξ∈PAut‖ξ‖!.

Eine Beschreibung der Kontextbildung fur die strukturierten Objekte aus Bei-spiel 4.2.1 bzw. Abbildung 1.1 findet sich in Beispiel 4.5.1 (s. u.).

4.4 Kontextattribute

In [130] werden kontextabhangigeKnoten- und Kantenmerkmaleals Elemente vonimg xi und imgyi eingefuhrt2. Ein Knoten- bzw. Kantenmerkmal (Kontextmerkmal)

2 Die Knoten- bzw. Kantenattribute sind Gesamtbeschreibungen einer Kante bzw. eines Kno-ten und sollten nicht mit den oben definierten Kontextbeschreibungsattributennw,w′ zur Be-schreibung des Kontextes einer Kante verwechselt werden – sie sind aus diesen aufgebaut.


ist also selbst ein Vektor. Fur ein Attributa∈ img xi bzw. a∈ img yi − img xi be-stimmt sich der Attributwert als dieAnzahlder Knoten bzw. Kanten inG, denena alsMarkierung zugeordnet ist, d. h., der Attributwert ist‖ξi

a(G)‖ bzw. ‖ηia(G)‖. Bei der

alleinigen Verwendung von Knoten- und Kantenmerkmalen wird jedem strukturiertenObjekt der Trainingsmenge genauein Merkmalsvektor zugeordnet. Bei der kombi-nierten Verwendung von Tripelattributen und Kontextattributen konnen die Vektorenin Vecsi(G) um die zu den Kontextattributen gehorigen Eintrage verl¨angert werden.

4.5 Induktion und Klassifikation

Durch Beschreibung der Beispiele mit Tripel- und Kontextattributen erhalt man ausSdie transformierte Trainingsmenge

S′ = { (M,c) | ∃G : (G,c)∈S∧M∈Vecsi(G)} ,

aus der mit Hilfe von CAL 2 oder CAL 3 ein Entscheidungsbaum erzeugt werden kann.Zur Klassifikation eines BeispielsG mit Hilfe des gelernten Entscheidungsbaums mußdas Beispiel zunachst transformiert werden, d. h., es mußVecsi(G) berechnet wer-den. Es genugt, einen der Merkmalsvektoren inVecsi(G) mit dem gelernten Baum zuklassifizieren, um die Klasse vonG zu ermitteln.

Beispiel 4.5.1 (Tripel- und Kontextattribute) Fur den Knotenv11 des strukturierten

ObjektesG1∈S0 erhalt man durch Kontextbildung die neue Markierung

y1(v11,v

11) =

y0(v11,v

11)

︷︸︸︷ub ./ n0(v1

1,v11) ,

wobei n0(v11,v

11) der Vektor der Auspragungen der Kontextbeschreibungsfunktio-

nen ist. Der Vektor besitzt den Eintragn0ub,ub

(v11,v

11) = 1, da v1

1 ein Block ist.n0

wn+d,wn+d(v1

1,v11) = 1 bedeutet, daßv1

1 eine auslaufende Kante besitzt, die mit den Re-lationenn undd markiert ist.n0

ws,ws(v1

1,v11) = 1 weist auf die auslaufendes-Kante des

Knotens hin. Die restlichenn0w,w′ in n0(v1

1,v11) besitzen die Auspragung 0. Die durch

den Verfeinerungsprozeß konstruierte neue Markierungy1(v11,v

11) charakterisiert den

Knotenv11 also durch seine Elementarattribute und auslaufenden Kanten.

Eine graphische Interpretation vony1(v11,v

11) findet sich als Kontextk1 in Abbil-

dung 4.2. Dort wird die Teilstruktur vonG1, die bei der Bildung vony1(v11,v

11) be-

trachtet wurde, rekonstruiert.Wir wollen y1(v1

1,v12) als Beispiel fur die Beschreibung einer Kante betrachten.

Eine graphische Interpretation stellt der Kontextk3 in Abb. 4.2 dar. Die Kante(v11,v

12)

besitzt den Merkmalsvektor

y1(v11,v

12) =

y0(v11,v

12)

︷︸︸︷wn+d ./ n0(v1

1,v12) ,

4.5. Induktion und Klassifikation 45

s s’ s’b

s s sb b

v

vs’ s s’

n+dv’v

n+dv

sv

v

vss’ s’

n+d n+d n+d

ss’

n+dv

v’

v’

s s ss sb b

v vn+d n n

s’ s’

n

s’

n

s

v’ v v’

sp

sv

s’ s’ s’ssv

s’p p

s’

n+d n+d

s’

n+d

v

v’ v’

v’

n+d

v

b b bn+d

v’

bv’

v’

v

v

v’

v’ v

v v’

vb b b b

b bbb b

bb b

b b

b

bb

b

b b

b b

k1

b

k2 k3 k4 k5

k16 k17 k18 k19 k20

k6 k7 k8 k9 k10

k11 k12 k13 k14 k15

Abbildung 4.2: Die neuen Knoten- und Kantentypenk1, . . . ,k20 (Werte vony1(v,v′)). Unmar-kierte Kanten reprasentieren Nullkanten.s′ reprasentiertsT . y1(v1

1,v11) = k1 ist

ein Knotenkontext,y1(v11,v

12) = k3 ist ein Kantenkontext.

wobei n0(v11,v

12) der Vektor der Auspragungen der Kontextbeschreibungsfunktionen

ist. Der Eintragn0ub,wn+d

(v11,v

12) = 1 in diesem Vektor zeigt an, daßv1

1 ein Block ist,der eine einlaufenden+d-Kante besitzt.n0

wn+d,ub(v1

1,v12) = 1 bedeutet, daß der zweite

Knoten ein Block mit einer einlaufendenn+d-Kante ist.n0ws,ws

(v11,v

12) = 1 charakteri-

siert das von den Knotenv11,v

12 undv1

3 gebildete Dreieck (vgl.k3 Abbildung 4.2). Dierestlichen Eintrage vonn0(v1

1,v12) sind 0.

Die in Abbildung 4.2 dargestellten Markierungk1 = y1(v11,v

11) ist ein Knotenat-

tribut, k3 = y1(v11,v

12) ist ein Kantenattribut. Insgesamt, d. h. durch Betrachtungaller

vorkommenden Werte vony1, erhalt man fur die TrainingsmengeS0 aus Abbildung1.1 die in Abbildung 4.2 dargestellten neuen Knoten- und Kantentypenk1, . . . ,k20. Diein Abb. 4.2 dargestellten Graphen reprasentieren die Teilstrukturen der Trainingsbei-spiele, die bei der Kontextbildung, d. h. zur Konstruktion des betreffenden Merkmals-vektors, berucksichtigt wurden.


Bei INDIGO wird ein Kontextattribut als formales Polynom und nicht alsMerk-malsvektor dargestellt, was den Vorteil der im Vergleich zuCRS kurzeren und furkleine Kontexttiefen lesbareren Darstellung besitzt.

Mit k1≺ k2, k1≺ k16, k7≺ k6 undk12≺ k2 gilt fur die normierten Adjazenzmatrizender ersten Iterationsstufe

Ads1(G1) = {

k1 k3 k4

k3 k1 k4

k5 k5 k2

}, Ads1(G2) = {

k1 k3 k17

k3 k1 k17

k18 k18 k16

} ,

Ads1(G3) = {

k7 k19 k10 k8

k19 k7 k8 k10

k11 k9 k6 k20

k9 k11 k20 k6

} und Ads1(G4) = {

k12 k13 k14

k13 k12 k14

k15 w15 k2

} .

Der Vektor der Kontextattribute(k1, . . . ,k20) enthalt die verschiedenen Eintrage dieserMatrizen. Der zu einer Matrix gehorige Merkmalsvektor ergibt sich aus der Vielfach-heit eines Kontexts in der Matrix. Der Baum in Abb. 4.3b) wurde mit CAL 2 aus dermit Hilfe der Kontextattribute (ohne Tripelattribute) transformierten Trainingsmengeerzeugt: Das Kantenattributk3 trennt beim Konzept

”Tor“ die Klassen.

Aus den Matrizen mit den Kontexten bzw. den zugehorigen Numerierungen kon-struiert man fur die strukturierten Objekte in der TrainingsmengeS0 die folgendenTripelmatrizen:

Trips1(G1)={

(k1,1) (wn+d,(k1,1),(k1,2)) (ws,(k1,1),(k2,1))

(wn+d,(k1,2),(k1,1)) (k1,2) (ws,(k1,2),(k2,1))

(wsT ,(k2,1),(k1,1)) (wsT ,(k2,1),(k1,2)) (k2,1)

},

Trips1(G2)={

(k1,1) (wn+d,(k1,1),(k1,2)) (ws,(k1,1),(k16,1))

(wn+d,(k1,2),(k1,1)) (k1,2) (ws,(k1,2),(k16,1))

(wsT ,(k16,1),(k1,1)) (wsT ,(k16,1),(k1,2)) (k16,1)

},

Trips1(G3)=

{

(k7,1) (wn+d,(k7,1),(k7,2)) (wε,(k7,1),(k6,1)) (ws,(k7,1),(k6,2))

(wn+d,(k7,2),(k7,1)) (k7,2) (ws,(k7,2),(k6,1)) (wε,(k7,2),(k6,1))

(wε,(k6,1),(k7,1)) (wsT ,(k6,1),(k7,2)) (k6,1) (wε,(k6,1),(k6,2))

(wsT ,(k6,2),(k7,1)) (wε,(k6,2),(k7,2)) (wε,(k6,2),(k6,1)) (k6,2)

} ,

Trips1(G4)={

(k12,1) (wn,(k12,1),(k12,2)) (ws,(k12,1),(k2,1))

(wn,(k12,2),(k12,1)) (k12,2) (ws,(k12,2),(k2,1))

(wsT ,(k2,1),(k12,1)) (wsT ,(k2,1),(k12,2)) (k2,1)

}.

Der Vektor der Tripelattribute enthalt alle in den vier Matrizen vorkommenden Tri-pelattribute. Die Merkmalsvektoren ergeben sich aus den Matrizen durch die Anzahl

4.6. Kontextabhangige Klassifikation von Knoten und Kanten 47

a) (wn+d,(k1,1),(k1,2)) :0→−1→+

b) k3 :0→−2→+

c) n0ws,ws

:0→−1→ n0

ub,wn+d:

0→−1→+

Abbildung 4.3: a) Entscheidungsbaum fur das Konzept”Tor“ mit Tripelattribut t1 =

(wn+d,(k1,1),(k1,2))b) Entscheidungsbaum fur das Konzept

”Tor“ mit Kantenattributk3 (vgl. Ab-

bildung 4.2).c) Entscheidungsbaum fur das Konzept

”Tordurchfahrt“ mit den Attributen

n0ws,ws

undn0ub,wn+d

.

der jeweils vorkommenden Tripel – der Attributwert ist deshalb 0 oder 1. Auf die An-gabe der Merkmalsvektoren wurde aus Platzgrunden verzichtet. Man beachte, daß furG1 im Vergleich zu Tabelle 4.1 nur noch ein Merkmalsvektor konstruiert wird. Fur alleanderen strukturierten Objekte wird ebenfalls ein Merkmalsvektor konstruiert.

Anschaulich ist klar, daß das Tripelt1 = (wn+d,(k1,1),(k1,2)) die Klassen+ und− in S0 unterscheidet, da es zwar in den Matrizen vonG1 und G2 aber nicht in denMatrizen vonG3 undG4 auftaucht. Durch Anwendung von CAL 2 auf die mit Hilfe derTripelattribute transformierten Trainingsmenge ergibt sich der Baum in Abb. 4.3a).�

4.6 Kontextabhangige Klassifikation von Knoten und Kanten

Bei der kontextabhangigen Klassifikation von Knoten besitzt ein Beispiel der Trai-ningsmenge die Form((v,G),c), wobeiv ein Knoten des strukturierten ObjektsG ist.D. h., die Klassec wird v und nicht dem strukturierten ObjektG zugeordnet. Beispiels-weise kann man die Knotenv1

1 undv12 des strukturierten ObjektsG1 der Trainingsmen-

ge in Abb. 1.1 jeweils alsTorpfeilerbetrachten, wahrend der Knotenv13 kein Torpfeiler

ist. Das Konzept”Torpfeiler“ stellt ein kontextabhangiges Konzept dar. Zur Indukti-

on einer Hypothese mussen die klassifizierungsrelevantenElementareigenschaften desbetrachteten Knotens sowie die klassifizierungsrelevanten Teile des Kontexts bestimmtwerden.

Fur die Konstruktion eines Klassifikators werden zunachst mit dem Verfahren ausAbschnitt 4.3 klassifizierte Merkmalsvektoren zur Beschreibung der klassifiziertenKnoten in der Trainingsmenge gebildet. Zur Beschreibung eines Knotensv verwen-det man den Merkmalsvektorxi(v). Die Merkmaleni

w,w′(v) in diesem Merkmalsvektorbeschreiben einen Knoten durch seine auslaufenden Kanten bzw. durch seine Elemen-tarattribute. Baume fur die Konzepte

”Trager“ und

”Torpfeiler“ finden sich in [119].

Wie schon in der Einleitung angedeutet, erfolgt die Induktion von kon-textabhangigen Klassifikatoren von Kantenebenfalls mit Hilfe der Attributfunktionen


niw,w′(v,v

′), d. h., yi(v,v′) ist die Beschreibung der Kante(v,v′) in der transformier-ten Trainingsmenge, wenn((v,v′),G) ein Beispiel der ursprunglichen Trainingsmengeist. Die Verwendung von Tripelattributen ist bei der kontextabhangigen Klassifikationnicht vorgesehen.

Beispiel 4.6.1 (Tordurchfahrt) Eine Trainingsmenge fur das Konzept”Tordurch-

fahrt“, deren Konfigurationen den Graphen in Abb. 1.1 entsprechen ist

S2 = {(C1,+),(C2,+),(C3,−),(C4,−)}

mit den BeispielenC1 = ((v11,v

12),G1),C2 = ((v2

1,v22),G2),C3 = ((v3

1,v32),G3) undC4 =

((v41,v

42),G4). Ein von CAL 2 aus der transformierten Trainingsmenge

S′2 = {(y1(v11,v

12),+),(y1(v2

1,v22),+),(y1(v3

1,v32),−),(y1(v4

1,v42),−)}

erzeugter Baum fur das Konzept”Tordurchfahrt“ findet sich in Abb. 4.3c).

Die Konzepte”Tor“ und

”Tordurchfahrt“ hangen insofern zusammen, daß ein Tor

ein Paar von Knoten besitzen muß, welches eine Tordurchfahrt ist. Bildet ein Paar vonKnoten eine Tordurchfahrt, so ist die Gesamtstruktur ein Tor. Bildet ein Paar von Kno-ten keine Durchfahrt, so kann die Gesamtstruktur dennoch ein Tor sein. Bei INDIGO

spiegelt sich der enge Zusammenhang der Konzepte im Gegensatz zu CRS auch in dengelernten Entscheidungsbaumen wieder. �

4.7 Redundanz und Irrelevanz

In [105] untersucht J. Selbig das Lernen von Klassifikatorenfur die Veranderung vonstrukturierten Objekten, d. h. von Transformationsregeln3. Veranderungen strukturier-ter Objekte sind Ersetzungen von Elementarobjekten oder von Beziehungen zwischenElementarobjekten. Nach Selbig konnen gelernte Klassifikationsregeln als generali-sierte Aktionsteile von Produktionsregeln fur die Problemlosung in Anwendungsge-bieten aufgefaßt werden, in denen Zustandsanderungen in Form von Veranderungenstrukturierter Objekte stattfinden. Ein Beispiel fur ein solches Anwendungsgebiet istdie Chemie, in der bestimmte Reaktionsklassen – z. B. die Diels-Alder-Reaktionen –eine große Rolle spielen.

J. Selbig schlagt einen Ansatz zur lernfahigen Klassifikation von Transformatio-nen vor, der auf der Darstellung der Trainingsbeispiele durch Tripel und der Induk-tion von Entscheidungsbaumen beruht. Die Ausgangssituation wird durch eine rela-tionale StrukturΓ1 = (X1,E1) mit einer TragermengeX1 und einer RelationenmengeE2 als Aufzahlung der ein- und zweistelligen Relationstupelbeschrieben, die in einstrukturiertes ObjektΓ2 = (X2,E2) uberfuhrt wird. O. E. kann man annehmen, daßX1∩X2 6= /0 gilt. Die Transformation wird durch eine links- und rechtstotale Relation

3 In [65] wird ein Ansatz zum Lernen von Produktionsregeln beschrieben, der auf dem Ver-fahren TRITOP beruht und durch die Arbeiten von Selbig angeregt wurde.

4.7. Redundanz und Irrelevanz 49

T ⊆ X1×X2 beschrieben. Dann laßt sich der Zustandsubergang als relationale Struk-tur (X1∪X2,E1∪E2∪T) (Transformation) darstellen und mit dem in diesem Kapiteldargestellten Verfahren in Merkmalsvektoren transformieren.

In seiner Arbeit widmet sich J. Selbig der Frage irrelevanter und redundanter Tei-le in den Strukturen, die durch die Tripel reprasentiert werden. In einem Tripel wiet1 = (wn+d,(k1,1),(k1,2)) aus dem Baum in Abb. 4.3a) kann jeder Teil der Definition,d. h.wn+d undk1, die Nummern, sowie dieEintrageder Merkmalsvektorenwn+d undk1 irrelevant oder redundant sein. Die Berucksichtigung solcher irrelevanter und red-undanter struktureller Information fuhrt zu kompakterenHypothesen, d. h. zu wenigerBlattern oder zu weniger oder strukturell einfacheren Tests im Baum. Von irrelevantenInformationen hangt die Klassenbildung nicht ab; redundante Informationen bringenkeine zusatzliche Klassentrennung. In beiden Fallen mußder Kontext der Informationim Baum berucksichtigt werden, der durch das Gesamtattribut gegeben ist, und evtl.durch Tests weiter oben im Baum, die auf dem Pfad liegen, der zu dem fraglichenAttribut fuhrt. Man spricht deshalb von bedingter Redundanz bzw. Irrelevanz (vgl.Abschnitt 2.3.2). Im Tripelt1 = (wn+d,(k1,1),(k1,2)) aus dem Baum in Abb. 4.3a) istbeispielsweise die Form der tragenden Blocke redundant, die im Merkmalsvektork1

kodiert ist, da alletragendenenObjekte in der Trainingsmenge Blocke sind und keinePrismen. D. h., der Kontext zur Beurteilung der Redundanz ist durch die restliche In-formation int1 gegeben, die besagt, daß es sich bei den Blocken um tragendeBlockehandelt. Die Redundanz bzw. Irrelevanz eines Attributs mußbeim Lernen bezuglichder gegebenen Trainingsmenge beurteilt werden.t1 enthalt keine irrelevanten Teile.

Attribute, die alsGanzesirrelevant oder redundant sind, werden entweder durchdas Lernverfahren gar nicht erst in den Baum aufgenommen, oder aber mit den Regelnaus Abschnitt 2.3.2 eliminiert. Die Anwendung der dort beschriebenen Verfahren zurVereinfachung von Baumen ist bei irrelevanten und redundanten Attributteilen nichtmoglich.

Selbig schlagt zur Berucksichtigung von Irrelevanzen, die gegenuber den Redun-danzen das großere Problem darstellen, die Bildung vondisjunktivenTests bestehendaus mehreren Tripeln vor, d. h., man erhalt u. U. kompliziertere, aber besser genera-lisierende Tests und einfachere Baumstrukturen. Enthaltein solcher Test zwei (odermehrere) Tripel(y,(x1,n1),(x2,n2)) und(y′,(x′1,n

′1),(x

′2,n′2)), die eine identisch mar-

kierte Kante beschreiben, also bei Transformationstripeln etway = y′ = vT , so faßtSelbig dies als Disjunktion der Elementarmarkierungen derersten bzw. der zweitenKnoten und als Bildung des großten gemeinsamen charakteristischen Knotenkontex-tes auf. Ein charakteristischer Knotenkontext umfaßt die Markierungen von Kanten zuNachbarknoten des Zentralknotens zusammen mit ihrer Vielfachheit, und kann somitals Merkmalsvektor aufgefaßt werden. Die Relationen zwischen Knoten des Kontex-tes werden nicht betrachtet, was einer der wesentlichen Schwachpunkte des Verfahrensist.

Selbig gibt zwei Verfahren zur Konstruktion von disjunktiven Tests an, auf diewir nicht naher eingehen wollen. Die Verfahren fuhren zu evtl. einfacher strukturier-ten Baumen mit relativ komplexen Attributen (Disjunktionen von Tripeln). In Ab-


schnitt 7.4 wird ein Ansatz zur Generalisierung von Attributen entwickelt werden,der es erlaubt, beliebige irrelevante Teile in Kontextbeschreibungen zu eliminieren,und der deshalb zu syntaktisch einfacheren Attributen fuhrt. Gegenuber dem Ansatzvon Selbig konnen durch diese Vereinfachung auch redundante Teile berucksichtigtwerden (hier hilft die Bildung disjunktiver Tests nichts).

4.8 Eigenschaften des Ansatzes

Im letzten Abschnitt von Kapitel 4 wollen wir die Eigenschaften von CRS zusam-menfassen und diskutieren. Diese Diskussion stellt gewissermaßen den

”Fahrplan“ zur

Entwicklung des Systems INDIGO dar.CRS ist ein Verfahren zur Induktion relationaler Konzepte, dasauf der graphen-

theoretischen Transformation der Trainingsbeispiele in Merkmalsvektoren beruht.Dies reduziert zum einen die Komplexitat der Lernaufgabe,zum anderen erlaubtdie Transformation den Einsatz von klassischen Entscheidungsbaumverfahren. CRS

hat den wesentlichen Vorteil, daß in der Kannphase die strukturierten Objekte derTrainingsmenge ohne Berechnung von Isomorphismen bzw. Subgraphisomorphismenwiedererkannt werden. Ein zweiter wichtiger Vorteil entsteht dadurch, daß Entschei-dungsbaume zur Reprasentation von Wissen verwendet werden. D. h., die Klasse einesstrukturierten Objekts kann sowohl durch die Konjunktion,Disjunktion, Negation unddie Anzahl des Auftretens eines Merkmals charakterisiert werden. MoglicheVerbes-serungenvon CRS betreffen die folgenden Punkte.

1. Generalisierungsfahigkeit: Generalisierungsfahige Klassifikatoren entstehen beiCRS dadurch, daß Tripel- und Kontextattribute nur Teile des strukturierten Objektsumfassen, aus dem sie erzeugt wurden, und daß nicht alle Attribute zum Aufbaueines Entscheidungsbaumes benotigt werden. Wie schon vonJ. Selbig beschrie-ben, konnen jedoch auch die zum Baumaufbau verwendeten Merkmale irrelevanteInformationen enthalten. Wir stellen fur INDIGO in Abschnitt 5.4 deshalb einenAnsatz zur syntaktischen Vereinfachung von Kontextbeschreibungen vor. Eben-falls in die Richtung generellerer Hypothesen zielen die sog. Pfadattribute, die inAbschnitt 5.3 eingefuhrt werden.

2. Kontextbildung:Da bei CRS Nullkantenwie normale Kanten behandelt werden,werden zur Bildung des Kontextes eines Knotens bzw. einer Kante alle Knotendes strukturierten Objekts einbezogen, und nicht nur solche Knoten, die mit demKnoten bzw. den Knoten der Kante in Relation stehen.Aus dem Beweis derAquivalenz der Kontextbildung von CRS zu einer Grund-version der Kontextbildung von INDIGO in Abschnitt 5.2 folgt außerdem, daß derKontext selbst bei einer besonderen Berucksichtigung vonNullkantenexponentiellmit der Iterationsstufe des Verfahrens wachst.Wir stellen in Abschnitt 5.3 einen bezuglich der Behandlung von Nullkanten unddes Kontextwachstums modifizierten Ansatz der Kontextbildung vor, der nichtmehr zu CRS aquivalent ist.

4.8. Eigenschaften des Ansatzes 51

3. Verstandlichkeit: Die Rekonstruktion von fur den Menschen bedeutungsvollenStrukturen aus den Attributen und gelernten Entscheidungsbaumen ist i. a. nur furdie ersten Iterationsstufe moglich (vgl. Abb. 4.2). Es sollte deshalb ein Verfahrenentwickelt werden, das aus einem gelernten Entscheidungsbaum die Klassenproto-typen bzw. die charakterisierenden Klassenkontexte konstruiert, s. Kapitel 8

4. Aufwand:Der Einfluß der Kontexttiefe auf den Aufwand zur Erzeugung einer Hy-pothese, ihre Generalisierungsfahigkeit und Komplexit¨at sollte genauer untersuchtwerden (s. Abschnitt 7.10).

5. Einheitlichkeit:Wie in diesem Kapitel deutlich wurde, besitzt CRS unterschiedli-che Methoden zur Transformation von Beispielen der Graphklassifikation und derkontextabhangigen Klassifikation. Insbesondere ist die Tripelreprasentation fur diekontextabhangigen Klassifikation nicht vorgesehen. INDIGO erlaubt demgegenubereine einheitliche Behandlung der Klassifikationsarten.

Kapitel 5

Das Lernverfahren INDIGO

Dieses Kapitel widmet sich dem Lernverfahren INDIGO ([31,30,32,33]), einer Erweite-rung von CRS. In Abhangigkeit von der Stelligkeit des zu lernenden Konzeptes werdenwie bei CRS fur die Klassifikation die folgenden Falle unterschieden:

1. Bei derGraphklassifikation(k = 0) wird die Klasse der Struktur als Ganzer zu-geordnet. Die sog.Konzeptstelligkeitk ist fur alle Beispiele gleich, da sie eineEigenschaft des zu lernenden Konzepts darstellt.

2. Bei derkontextabhangigen Klassifikation von Knoten(k = 1) wird die Klasse ei-nem Knoten in der Struktur zugeordnet. Bei der Klassifikation mussen sowohl dieMerkmale des zu klassifizierenden Knotens als auch die Eigenschaften seines Kon-textes in der Struktur betrachtet werden.

3. Bei derkontextabhangigen Klassifikation von Kanten(k = 2) werden Kanten klas-sifiziert. Ein Klassifikator fur Kanten kann von Eigenschaften der Kante, von Ei-genschaften des Start- und des Zielknotens und von Eigenschaften des Kontextesabhangen.

INDIGO basiert auf einer syntaktischen Reprasentation der Beispielgraphen in derTrainingsmenge alsStrukturen, denen man ein strukturiertes Objekt, d. h. eine CRS-Reprasentation, zuordnen kann (s. Abschnitt 5.1). Die Strukturen der Trainingsmen-ge werden bei INDIGO durch Adjazenzmatrizen dargestellt und mit Hilfe eines sog.Verfeinerungs- bzw. Kontextbildungsverfahrens(Abschnitt 5.2) in Merkmalsvektorentransformiert, welches auf der formalen Multiplikation der Adjazenzmatrizen der Bei-spiele gemaß dem Isomorphieentscheidungsverfahren von Weisfeiler beruht ([125]).Fur jede Struktur der Trainingsmenge erzeugt das Verfeinerungsverfahren eine Unter-teilung der Knoten und Kanten der Struktur inKlassen, welche von den Klassen derTrainingsmenge zu unterscheiden sind, vgl. Kapitel 4. Jeder Klasse ist ein sie charak-terisierendes, formales Polynom zugeordnet, welches zur Definition der Attribute furdie Transformation der Trainingsbeispiele herangezogen wird.

Wir werden in diesem Kapitel zeigen, daß die Verfeinerung durch Matrizenmulti-plikation die gleiche Knoten- bzw. Kantenpartitionenfolge erzeugt wie die Verfeine-rung von CRS (Kontextbildung nach Tinhofer) – s. Satz 5.2.1. Daraus folgt insbeson-dere auch die (inhaltliche)Aquivalenz der Verfeinerungsverfahren von Tinhofer undWeisfeiler. In Abschnitt 5.3 wird eine modifizierte Variante des Kontextbildungsver-fahrens entwickelt, die nicht mehr zu CRS aquivalent ist und bestimmte Nachteile desVerfahren vermeidet (s. hierzu auch Abschnitt 4.8).

Zur Transformation stehen die folgenden Attributtypen zurVerfugung, die auto-matisch aus der gegebenen Trainingsmenge generiert werden:

5.1. Eine syntaktische Reprasentation fur strukturierte Objekte 53

1. Normattribute:Normattribute sind eine Verallgemeinerung der von CRS bekann-ten Tripelattribute1 (Abschnitt 5.3.3). Jedes Beispiel wird zunachst in eine isomor-phieinvarianteMengenormierter Darstellungen (sog. Merkmalsmengen) uberfuhrt.Die Normierung besteht darin, die ursprunglichen Knotenbezeichner durch neueBezeichner zu ersetzen. Diese werden mit dem Kontextbildungsverfahren berech-net. Aus jeder normierten Darstellung einer Struktur wird ein eigener Merkmals-vektor generiert, so daß einem Ursprungsbeispiel u. U.mehrereMerkmalsvektorenzugeordnet werden.

2. Polynomialattribute:Polynomialattribute (Abschnitt 5.3.1) stellen eine Verallge-meinerung der von CRS bekannten Kontextattribute dar, wobei der Kontext nichtwie bei diesen durch einen Merkmalsvektor dargestellt wird, sondern durch einformales Polynom, welches bei der formalen Multiplikationder Adjazenzmatri-zen der Beispielstrukturen entsteht. Polynomialattribute beschreiben alsKnoten-und KantenattributeKnoten- und Kantentypen, d. h. Vergroberungen der transiti-ven Klassen der Automorphiepartition. Eine Beispielstruktur wird bezuglich einessolchen Polynomialattributes durch die Anzahl der Knoten bzw. der Kanten be-schrieben, die den betreffenden Kontext besitzen, d. h. durch die zugehorigen Klas-sengroßen. Polynomialattribute erfordern deshalb lediglich einen Merkmalsvektorpro Beispiel, wenn sie nicht mit den Normattributen kombiniert werden.

3. Pfadattribute:Pfadattribute (Abschnitt 5.3.2) stellen einem im Vergleich zu CRS

neuen Typ von Attributen dar: Ein Pfadattribut charakterisiert eine Struktur durchdie Anzahl der Pfade im zugeordneten Graphen, die dieRelationssymbolfolgebe-sitzen, die durch das Attribut spezifiziert wird.

INDIGO erlaubt die kombinierte Verwendung von Polynomial-, Pfad-, und Normattri-buten unterschiedlicher Kontexttiefen fur alle betrachteten Arten der Klassifikation.

Nach der Darstellung der Transformation der Trainingsbeispiele wird in Ab-schnitt 5.4 eine syntaktischeGeneralisierungsbeziehungfur Norm-, Polynomial- undPfadattributen dargestellt, die zur Teilstrukturbeziehung in Beziehung gesetzt werdenkann (Satz 5.4.1), und die es erlaubt, nach dem Lernen des Klassifikators irrelevanteund redundante strukturelle Information in den verwendeten Attributen zu eliminieren.Die Induktion und Klassifikation mit INDIGO wird in Abschnitt 5.5 formal zusammen-gefaßt. Der Aufwand des Verfahrens wird in Abschnitt 5.5.2 diskutiert. Die experimen-telle Evaluation erfolgt in Abschnitt 5.6. Ein Resumee findet sich in Abschnitt 5.7.

5.1 Eine syntaktische Reprasentation fur strukturierte Objekte

In diesem Abschnitt wird eine syntaktische Darstellung fur die strukturierten Objektevon CRS eingefuhrt, die an die Produktdarstellung von Beispielenin den Arbeiten von

1 Normattribute werden durch Quintupel reprasentiert, so daß wir den Ausdruck”Tripelattri-

bute“ fur irrefuhrend hielten, insbesondere, da bei INDIGO Polynomialattribute durch Tripeldargestellt werden.

54 Kapitel 5. Das Lernverfahren INDIGO

Vere, von Hayes-Roth und McDermott, bzw. von Haussler angelehnt ist. Ein struktu-riertes Objekt wird durch die Aufzahlung der fur die Knoten geltenden Relationen inForm von Literalen beschrieben. Ein Literal besitzt die Form p(x1, . . . ,xn) mit einemRelationssymbolp und Knotenbezeichnern(x1, . . . ,xn) (vgl. Anhang C).

Beispiel 5.1.1Mit den in Abschnitt 4.1 definierten Relationen erhalt man fur dieKonfigurationen in Abb. 1.1 die als Mengen aufzufassenden Beschreibungen

G1 = (b(v11),b(v1

2),b(v13),n(v1

1,v12),n(v1

2,v11),d(v1

1,v12),d(v1

2,v11),s(v

11,v

13),s(v

12,v

13)),

G2 = (b(v21),b(v2

2), p(v23),n(v2

1,v22),n(v2

2,v21),d(v2

1,v22),d(v2

2,v21),s(v

21,v

23),s(v

22,v

23)),

G3 = (b(v31),b(v3

2),b(v33),b(v3

4),n(v31,v

32),n(v3

2,v31),d(v3

1,v32),d(v3

2,v31),s(v

31,v

34),s(v

32,v

33)),

G4 = (b(v41),b(v4

2),b(v43),n(v4

1,v42),n(v4

2,v41),s(v

41,v

43),s(v

42,v

43)).

Ein Ausdruck wies(v12,v

13) heiße wie in der LogikAtom oder Literal, wobei bei

INDIGO nur maximal zweistellige Pradikate zugelassen sind. Die Bezeichnerv12 und

v13 sind Knoten vonG1. Jedes Paar von Knoten(v,v′) mit v 6= v′ einer Struktur heiße

Kanteder Struktur.Klassifizierte Beispiele bzw. Beispiele mit klassifizierten Knoten werden als Paare

C = (x,G) bestehend aus dem Tupel der klassifizierten Knotenx = (x1, . . . ,xk) undder StrukturbeschreibungG dargestellt. Die Konzeptstelligkeitk ist fur alle Beispielegleich, da sie eine Eigenschaft des zu lernenden Konzepts darstellt. Ein Beispiel furdie (Kanten-) Klasse

”Tordurchfahrt“ ist((v1

1,v12),G1). Ein Beispiel fur das Konzept

”Tor“ ist ((),G1) mit dem leeren Tupel(). �

Die im folgenden definierten Homomorphismen von Strukturensind eigentlich Be-schreibungen von Homomorphismen der durch die Strukturen beschriebenen struktu-rierten Objekte, vgl. Def. 4.1.3. Sie besitzen auf Grund derProduktdarstellung derStrukturen andere Eigenschaften als Homomorphismen der durch die Strukturen defi-nierten Graphen.

Definition 5.1.1 (Homomorphismus) SeienC = (x,G) undC′ = (x′,G′) Strukturen.Dann sind die folgenden Begriffe definiert.

1. Ein Homomorphismush : C−→C′ ist eine totale Abbildung der Knoten mith(x) = x′ undh(G)⊆G′. h heißt Monomorphismus, wennh injektiv ist.

2. C heißt Teilstruktur vonC′, wenn ein Monomorphismush : C−→C′ existiert.3. C undC′ heißen isomorph, wenn zusatzlichh(G) = G′ gilt. �

Strukturen konnen durch ihre Adjazenzmatrix dargestelltwerden. Die Adjazenz-matrix bildet den Ausgangspunkt fur das Verfahren von Weisfeiler und beschreibt nichtnur die Adjazenz der Knoten, sondern auch die bestehenden Relationen.

Definition 5.1.2 (Adjazenzmatrix) SeiC = ((x1, . . . ,xk),G) eine Struktur undf eineNumerierung der KnotenV(C) = {v1, . . . ,vn}. Zu jeder nichtsymmetrischen Relationr bezeichne das evtl. neue Symbolr ′ die zur inverse Relation. Fur die Numerierungf

5.1. Eine syntaktische Reprasentation fur strukturierte Objekte 55

wird die zugehorige AdjazenzmatrixM f (C) = M f (G) = (µu,v)1≤u,v≤n definiert durchdie formale Summe

µu,v = ∑r( f−1(u), f−1(v))∈G

r symmetrisch

r + ∑r( f−1(u), f−1(v))∈G

r nicht symmetrisch

r + ∑r( f−1(v), f−1(u))∈G

r nicht symmetrisch

r ′+ ∑r( f−1(u))∈G,u=v

r

�

Da die Reihenfolge der Relationssymbole innerhalb der formalen Summeµu,v nichtfestgelegt ist, werden solche Summen als gleich angesehen,die sich durch Umordnungder Summanden ineinander uberfuhren lassen – die Addition ist also ein kommutativerMengenbildungsoperator. Eine formale SummeS= ∑n

i=0 r i kann alsMehrfachmengeinterpretiert werden. Man schreibt deshalbr ∈S, wennr = r i fur ein i gilt. Faßt mangleiche Elemente der Mehrfachmenge zusammen, so kann man die SummeSalsS=

∑r∈S′ αr r mit den Vielfachheitenαr > 0 darstellen, wo beiS′ die (normale) Menge dervorkommenden Relationen ist. Man definiert diecharakteristische Funktionχ durchχ(r ′,S) = αr ′, falls r ′∈S′, undχ(r ′,S) = 0 sonst. Betrachtet man eine GrundmengeS′′,die die tatsachlich vorkommenden Elemente einer MehrfachmengeS′ umfaßt, so istdie DarstellungS= ∑r∈S′′ αr r mit αr = χ(r,S) definiert, d. h., es gilt moglicherweiseαr = 0.

Man kann wie bei CRS eine Adjazenzmatrix als Darstellung eines markierten Gra-phen auffassen, d. h., die zugehorige Struktur beschreibtgerade diesen Graphen. DieMarkierung eines Knotens im Graphen reprasentiert die Gesamtheit der fur den Kno-ten geltenden einstelligen und reflexiven zweistelligen Relationen. Die Markierungeiner Kante reprasentiert die Gesamtheit der geltenden zweistelligen Relationen. Wirwerden im folgenden meist die Struktur selbst und nicht den zugehorigen Graphenbetrachten.

Um die Markierungen von Knoten und Kanten im Graphen in eindeutiger Wei-se unterscheiden zu konnen, verwendet man zur Kennzeichnung von Knoten – fallsnotig – die besondere einstellige Relationis node. Die Annahme der Unterscheidbar-keit der Matrizeneintrage von Knoten und Kanten ist fur den Beweis von Satz 5.2.1von Bedeutung. Die zweite Funktion der Relationis nodebesteht in der Moglichkeitder Reprasentation von Knoten, die sonst in keinem Literalder Strukturbeschreibungvorkommen. Dies ist notwendig zum Beweis von Prop. 5.1.1, die den Zusammenhangzwischen INDIGO-Strukturen und strukturierten Objekten herstellt.

Wir werden im folgenden immer von einer beliebigen, aber festen Numerie-rung f der Knoten einer Struktur ausgehen, und deshalb derUbersichtlichkeit we-gen die Funktionf meist weglassen, d. h., wir schreiben beispielsweiseM(u,v) furM f ( f (u), f (v)).

Beispiel 5.1.2 (Adjazenzmatrix) Der relationalen StrukturG1 bzw. dem BeispielC1 = ((v1

1,v12),G1) ist mit der Knotennumerierungf = {v1

1 7→ 1,v12 7→ 2,v1

3 7→ 3} die


Adjazenzmatrix

M(C1) =

b d+n sd+n b ss′ s′ b

(5.1)

zugeordnet. Da in diesem Fall die einstellige Relationb schon Knoten und Kan-ten unterscheidet, kann auf die Verwendung der Relationis nodeverzichtet werden.Das Relationssymbols′ reprasentiert die Inverse der Relations, d. h., es gilts′(x,y)gdw.s(y,x). Fur die symmetrischen Relationenn undd wird auf eine zusatzliche Re-prasentation der Inversen in der Matrix verzichtet. Man beachte, daß die Adjazenzma-trix die Struktur kodiert, aber nicht die klassifizierten Knoten.

Die restlichen Adjazenzmatrizen fur die Beispiele in Abb.1.1 bzw. aus Bei-spiel 5.1.1 sind:

M(G2) =

b n+d sn+d b ss′ s′ p

,

M(G3) =

b d+n ε sd+n b s εε s′ b εs′ ε ε b

und M(G4) =

b n sn b ss′ s′ b

.

�

Ist C = (x,G) ein Beispiel so kann manG eindeutig ein strukturiertes ObjektSo(G) = (V;P1, . . . ,Ps1;Q1, . . . ,Qs2) nach Definition 4.1.1 zuordnen, indem manV =V(G) setzt, und die RelationenPi und Q j gemaß den inG vorkommenden Ato-men wahlt. Fur eine feste Numerierungf kann man aus der CRS-AdjazenzmatrixA(So(G)) = Af (So(G)) die INDIGO-Matrix M f (G) wiedergewinnen, indem man furjede 1 eines Merkmalsvektors in der MatrixA(So(G)) das Symbol der zugehorigenRelation in den entsprechenden Matrizeneintrag inM(G) aufnimmt (eine Ausnahmeist die evtl. fuhrende 1, die Knoten und Kanten unterscheidet). Umgekehrt kann manzu jedem Polynom inM(G) den Merkmalsvektor inA(So(G)) konstruieren. Die sovermittelte Abbildung von Polynommatrizen in Vektormatrizen heiße Vec. Es gilt diefolgende Proposition.

Proposition 5.1.1 Vec und So sind bijektiv, und es gilt Vec(M(G)) = A(So(G)). �

Beispiel 5.1.3 (Reprasentation) Es gilt So(G1) = (V1;b1,p1;n1,d1,s1,sT,1) mit V1={v1

1,v12,v

13}, b1={v1

1,v12,v

13}, p1={}, n1={(v1

1,v12),(v

12,v

11)}, d1={(v1

1,v12),(v

12,v

11)},

s1={(v11,v

13),(v

12,v

13)} undsT,1={(v1

3,v11),(v

13,v

12)} (s.G1 in Abschnitt 4.1) und

Vec(

b d+n sd+n b ss′ s′ b

) =

(1,1,0,0,0,0,0) (0,0,0,1,1,0,0) (0,0,0,0,0,1,0)

(0,0,0,1,1,0,0) (1,1,0,0,0,0,0) (0,0,0,0,0,1,0)

(0,0,0,0,0,0,1) (0,0,0,0,0,0,1) (1,1,0,0,0,0,0)

.

5.2. Isomorphieentscheidung nach Weisfeiler 57

Ein offensichtlicher Vorteil der bei INDIGO verwendeten Darstellung der Adjazenzma-trizen besteht darin, daß diese einfacher als die bei CRS verwendete ist, da in einemEintrag nur die tatsachlich geltenden Relationen aufgef¨uhrt werden mussen. �

5.2 Isomorphieentscheidung nach Weisfeiler

Weisfeiler stellt in [125] u. a. ein Verfahren zur Entscheidung der Isomorphie zweierGraphen vor, das wie der Ansatz von Tinhofer auf einem parallelen Verfeinerungsver-fahren der Knoten- und Kantenpartitionen der beiden Graphen beruht. Das Verfahrensoll im folgenden kurz dargestellt werden.

Weisfeiler definiertX ∼Y fur AdjazenzmatrizenX undY, wenn die Knoten- bzw.Kantenpartitionen nach gleichen Markierungen fur beide Matrizen gleich sind, d. h.,wennxuv = xu′v′ gdw.yuv = yu′v′ gilt. Er definiert dieExtensionα(X) eines GraphenXals

α(X) = (X ◦X)∨ (X ◦X)T ,

wobei ◦ Produkt und ∨ Superimpositionheißt. IstX = (xuv), so istX ◦X als Ma-trizenprodukt aufzufassen, genauerX ◦X ∼ (∑xuzxzv). Der Ausdruck∑xuzxzv ist einformales Polynom in Markierungen vonX. Die Verwendung von∼ statt von= erlaubtes, die MatrixX ◦X als Matrix mit elementaren Markierungen (und nicht mit Poly-nomen aufzufassen). Die Superimposition ist wie folgt definiert. Es giltC∼ (A∨B),wenncuv = cu′v′ genau dann gilt, wennauv = au′v′ und buv = bu′v′ gilt. Geht man alsovonX zuα(X) uber, so wird die Knoten- bzw. Kantenpartition vonX verfeinert, indemzu einer Kante(u,v) bzw. zu einem als(u,u) dargestellten Knoten die adjazentenPfa-de der Lange 2 im Graphen betrachtet werden (Produkt), undaußerdemgleichzeitigdie Pfade des transponierten Eintrags(v,u) – letzteres durch die Superimposition mit(X◦X)T . Durch iteriertes Anwenden vonα kommt man zu einemstationaren GraphenY fur denα(Y)∼Y gilt.

Man kann leicht zeigen, daß

α(X) = (X ◦X)∨ (X ◦X)T ∼ (X∨XT)◦ (X∨XT)

gilt. Ist die AdjazenzmatrixX gemaß Definition 5.1.2 aufgebaut, so istX ∨XT ∼ X,da man ja in Def. 5.1.2 in jedem Matrizeneintrag auch die Markierung der entgegen-gesetzten Kante berucksichtigt hat, d. h., es gilt

α(X)∼ X ◦X ∼ X2 .

Wiederholtes Anwenden vonα kann somit als (formale)Potenzierungder Adjazenz-matrix aufgefaßt werden. Die Multiplikation der Matrix kann dabei anschaulich alsPfadbildungsprozessinnerhalb des Graphen interpretiert werden, der der Struktur zu-geordnet ist. In jeder Iterationsstufei des Verfahrens von Weisfeiler wird eine Knoten-bzw. Kantenklasse durch die Mengealler inzidenten Pfade der Lange 2i charakte-risiert. Wir zeigen in Satz 5.2.1, daß die Verfeinerung mitα der Verfeinerung vonWysotzki aquivalent ist.


Anstatt die Relation∼ zu verwenden, fuhren wirexplizite Kodierungsfunktionenein und betrachten die beiden folgenden Matrizenfolgen. Die Kontextbildung bestehtin alternierenden Multiplikations- und Kodierungsschritten.

Definition 5.2.1 (Kontextbildung) (ci)i≥0 sei eine Folge von Kodierungsfunktio-nen mit disjunkten Bild- und Definitionsbereichen. Dann sind die Matrizenfolgen(K i(C))i≥0 und(Li(C))i≥0 fur i ≥ 0 definiert durch

K0(C) = M(C), L0(C) = c0(K0(C)) ,

K i+1(C) = Li(C) ·Li(C), Li+1(C) = ci+1(K i+1(C)) . �

Die Kodierungsfunktionenci+1 sind als Entsprechung zu”∼“ so gewahlt, daß sie for-

male Polynome in Symbolen aus dem Wertebereich vonci auf neue Symbole abbilden,wobei darauf zu achten ist, daß Polynome mit vertauschten Summanden als identischangesehen werden. Wir werden im folgenden eine

”Klammerschreibweise“ fur kodier-

te Polynome verwenden:ci(p) =”(“p

”)“ . Die Klammerschreibweise gibt eine intui-

tive Erklarung fur die Berechnung der Pfade, s. Beispiel 5.2.1. Man kann zeigen, daßgilt Li(C)∼ αi(M(C)).

Beispiel 5.2.1 (Kontextbildung) Aus der Matrix (5.1) erhalt man durch Anwendungder Kodierungsfunktionc0 die Matrix

L0(C1) =

(b) (d+n) (s)(d+n) (b) (s)(s′) (s′) (b)

.

Es istK1(C1) =

(b)(b)+(s)(s′)+(d+n)(d+n) (b)(d+n)+(d+n)(b)+(s)(s′ ) (b)(s)+(s)(b)+(d+n)(s)(b)(d+n)+(d+n)(b)+(s)(s′) (b)(b)+(s)(s′)+(d+n)(d+n) (b)(s)+(s)(b)+(d+n)(s)(b)(s′)+(s′)(b)+(s′)(d+n) (b)(s′)+(s′)(b)+(s′)(d+n) (b)(b)+(s′)(s)+(s′)(s)

undL1(C1)=

((b)(b)+(s)(s′)+(d+n)(d+n)) ((b)(d+n)+(d+n)(b)+(s)(s′)) ((b)(s)+(s)(b)+(d+n)(s))((b)(d+n)+(d+n)(b)+(s)(s′)) ((b)(b)+(s)(s′)+(d+n)(d+n)) ((b)(s)+(s)(b)+(d+n)(s))((b)(s′)+(s′)(b)+(s′)(d+n)) ((b)(s′)+(s′)(b)+(s′)(d+n)) ((b)(b)+(s′)(s)+(s′)(s))

Ausdrucke der Formb, n+ d oder (b)(b)+ (s)(s′) + (d + n)(d + n) werden im fol-genden alsKontextpolynomebezeichnet, die kodierten (geklammerten) Varianten(b),(n+d) oder((b)(b)+(s)(s′)+(d+n)(d+n)) alsKontextsymbole. �

Durch Induktion laßt sich leicht zeigen, daßK i(C)(u,v) bzw.Li(C)(u,v) die Pfadeder Lange 2i beschreibt, die von Knotenu zu Knotenv fuhren. Pfade der Lange 2i

erfassen Eigenschaften von Kontextknoten, die einen maximalen Abstand von 2i−1

von einem der Knotenu oderv besitzen. Der erfaßte Kontext wachst alsoexponentiellmit der Iterationsstufe des Verfahrens.

Durch Anwendung der Kodierungsfunktionen werden die Pfadenicht explizit be-rechnet, sondern nur noch komplexe

”Konstruktionsvorschriften“ fur ihre Berechnung


erzeugt, wodurch das Verfahren zur Kontextbildung einen polynomiellen Aufwand hat,obwohldie Anzahl der Pfade und somit auch der Aufwand fur ihre Berechnung expo-nentiell mit der Kontexttiefe wachst.

Beispiel 5.2.2 (Pfade)Der Matrizeneintrag((b)(d + n) + (d + n)(b) + (s)(s′)) =c1((b)(d+ n)+ (d + n)(b)+ (s)(s′)) aus der MatrixL1(C1) in Beispiel 5.1.2 umfaßtdie Pfadebd, bn, db, nd, ss′ die von Knotenv1

1 zu Knotenv12 fuhren, wobei Ele-

mentarattribute als Schlingen betrachtet werden. Das Produkt (b)(d+n) steht fur diekombinatorische Konkatenation der Elemente der Mehrfachmengen(b) = c0(b) und(d+n) = c0(d+n), die sich durch

”Ausmultiplizieren“ alsb(d+n) = bd+dnberech-

nen laßt. Durch Ausmultiplizieren erhalt man also insgesamt

a( ((b)(d+n)+(d+n)(b)+(s)(s′)) ) := bd+bn+db+nd+ss′ . �

Es muß betont werden, daß die MatrizenfolgeLi(C) einefeinereUnterscheidungvon Knotenpaaren erlaubt, als die Betrachtung der Menge aller adjazenten Pfade derLange 2i . Der Grund ist im Auftreten von mehreren Relationen pro Kante und in derBehandlung der Nullkanten zu suchen. Die Betrachtung von Pfaden stellt also vorallem eine intuitive Interpretation des Verfeinerungsverfahrens dar (s. auch Satz. 5.4).

EineNullkantewird in M(C) durch das leere Polynomε reprasentiert. Die kodierteNullkantec0(ε) wird in K1(C) = L0(C) · L0(C) als gewohnliches Symbol behandelt,so daß bei der Kontextbildung auch solche Knoten berucksichtigt werden, die nichtzum Knoten bzw. den Knoten der Kante, fur den bzw. fur die der Kontext gebildetwird, in Relation stehen. Dieses unintuitive Verhalten derKontextbildung laßt sichvermeiden, indem man die Kodierung der Nullkante alsNull der Multiplikation auffaßt(s. Abschnitt 5.3).

Jede MatrixLi(C) induziert eine PartitionΠi(C) von V ×V nach gleichen Ein-tragen in der Matrix, die wie folgt definiert ist.

Definition 5.2.2 (Partition)

1. DieAquivalenzrelation∼i ist fur Paare von Knoten einer Struktur definiert durch:

(u,v)∼i (u′,v′) gdw.Li(G)(u,v) = Li(G)(u′,v′) .

Es seiΠi(C) = (V×V) / (∼i) (5.2)

die Partition von Knotenpaaren nach gleichen Matrizeneintragen.2. Es gelteΠi(C) = ∏ j T

ij (C). Fur ein Knotenpaar(u,v) sei die Klasse[(u,v)]i =

T ij (C) definiert, wenn (u,v) ∈ T i

j (C) gilt. In diesem Fall definiert manDescr(T i

j (C)) = Li(u,v) als Klassennamenvon T ij (C) (der nicht von dem Re-

prasentanten(u,v) abhangt). �

Man kann leicht zeigen, daß die PartitionΠi(C) nicht von der konkreten Knotennume-rierung f abhangt. SindC undC′ isomorph, so sind deshalb die PartitionenΠi(C) undΠi(C′) adjungiert.


Beispiel 5.2.3 (Partition) Aus der MatrixL0(C1) aus Beispiel 5.2.1 erhalt man diezugehorigen Partition

Π0(C1) = { {(v11,v

11),(v

12,v

12),(v

13,v

13)},{(v

11,v

12),(v

12,v

11)},

{(v11,v

13),(v

12,v

13)},{(v

13,v

11),(v

13,v

12)} } .

Man beachte, daßΠ0(C1) eine Teilpartition enthalt, die einer Partition der Knotenentspricht. Im gegebenen Beispiel liegen alle Knoten in derselben Klasse, der die Mar-kierung(b) zugeordnet ist. Eine Verfeinerung der Partition erhalt man ausL1(C1):

Π1(C1) = { {(v11,v

11),(v

12,v

12)},{(v

13,v

13)},{(v

11,v

12),(v

12,v

11)},

{(v11,v

13),(v

12,v

13)},{(v

13,v

11),(v

13,v

12)} } .

Wie man sieht, liegen jetzt die beiden Knotenv11 undv1

2 in derselben Klasse, der derKlassenname

Descr({(v11,v

11),(v

12,v

12)}) = ((b)(b)+(s)(s′)+(d+n)(d+n))

zugeordnet ist.v13 liegt in einer eigenen Klasse. Eine weitere Verfeinerung der Partition

ist nicht mehr moglich, daΠ1(C1) schon der Automorphiepartition entspricht, vgl.Abschnitt 4.1. �

Es laßt sich der folgenden Satz beweisen, der besagt, daß das Verfeinerungsver-fahren von Weisfeiler in unserer Darstellung genau dem Verfeinerungsverfahren vonWysotzki entspricht. Aus dem Satz folgt deshalb dieAquivalenz der Verfeinerungsver-fahren der Isomorphieentscheidungsverfahren von Tinhofer (in der Version von Hinte-regger bzw. Wysotzki) und Weisfeiler.

Satz 5.2.1 (Aquivalenz) Fur jede StrukturC gilt Πi(C) = Pyi (So(C)). �

Beweis.Der folgende Beweis klart den Zusammenhang von CRS und INDIGO, kannaber ohne Schaden fur das Verstandnis von INDIGO ubersprungen werden. Der Beweiserfolgt durch vollstandige Induktion uberi.

Fur i = 0 folgt der Beweis aus Proposition 5.1.1.f sei beliebig aber fest gewahlt.Die AdjazenzmatrixK0(C) = M(C) induziert dieselbe Partition wie die Adjazenzma-trix A(So(C)) aus Definition 4.1.2 mit ihren durch die Indikatorfunktiony0 = y defi-nierten Eintragen. Denn nach Proposition 5.1.1 gilt Vec(M(C))(u,v) = A(So(C))(u,v)fur das oben definierte bijektive Vec, das Polynome in Merkmalsvektoren ubersetzt2.Somit sind die Partitionen nach gleichen Matrizeneintragen inM(C) bzw. A(C) iden-tisch und die Klassen konnen mit Hilfe der Abbildung Vec aufeinander bezogen wer-den. Diese Eigenschaft andert sich auch nicht, wenn man aufK0(C) = M(C) die bi-jektive Kodierungsfunktionc0 anwendet. Eine Partition nach gleichen Eintragen vonA(C) entspricht aber gerade der Definition der PartitionPy = Py0 aus Abschnitt 4.3.Somit ist der Induktionsanfang bewiesen.

2 Hier ist die Annahme wichtig, daß Knoten- und Kanteneintrage unterschiedliche Polynomein M(C) zugeordnet bekommen. Sonst waren Knoten- und Kantenklassen in Π0(C) u. U.nicht disjunkt.


zw

z

u v u v

w’ l l’a) b)

Abbildung 5.1: a) Konfiguration die zum Wert des CRS-Merkmalsniw,w′(u,v) = ‖{z|yi(u,z) =

w∧yi(v,z) = w′}‖ beitragt.b) Konfiguration, die im Ausdruck∑zλi

u,zλiz,v mit l = λi

u,z und l ′ = λiz,v

berucksichtigt wird.

Induktionsschritt: Der Beweis des Induktionsschrittes ist etwas komplizierter.Die grundlegende Idee des Beweises besteht darin, daß sich die Bestimmung der Merk-malsauspragungenni

w,w′(u,v) fur Knotenu undv (siehe (4.2)) in der Bildung der for-

malen Summen(Li(C) ·Li(C))(u,v) = ∑zλiu,zλi

z,v bei INDIGO widerspiegelt. Der we-sentliche Unterschied zwischen beiden Verfahren besteht darin, daß dasw′ in der De-finition von ni

w,w′(u,v) (s. Abbildung 5.1) die Markierung einer Kante ist, fur die die

Gegenkantein ∑zλiu,zλi

z,v berucksichtigt ist. Bei CRS werden also”Dreiecke“ gezahlt,

beim Ansatz von Weisfeiler bzw. bei INDIGO hingegen Pfade. Da jedoch die Definiti-on der CRS- und der INDIGO-Adjazenzmatrizen so gewahlt ist, daß die obere und dieuntere Halfte der Matrix dieselbe Information tragen, erzeugen die beiden Verfahrendieselbe Partition. Dies soll im folgenden bewiesen werden.

Es gelte schonΠi(C) = Pyi (So(C)). Durch die Zuordnung der Klassen wird ei-ne bijektive Abbildung Vec zwischen den klassendefinierenden Polynomen vonΠi(C)und den klassendefinierenden Merkmalsvektoren im Wertebereich vonyi vermittelt.Die neue PartitionΠi+1(C) berechnet sich nach Definition aus den Eintragen der Ma-trix Li+1(C)= ci+1(Li(C) ·Li(C)). Mit Li(C)= (λi

u,z) gilt die BeziehungLi(C) ·Li(C)=

(∑zλiu,zλi

z,v).Zum Beweis des Satzes wird der Matrizeneintrag∑zλi

u,zλiz,v syntaktischtransfor-

miert, bis der Bezug zu denniw,w′(u,v) offen liegt. Die erzeugte Partition andert sich

durch einesymbolischeTransformation der Matrizeneintrage dann nicht, wenn un-terschiedliche Ausdrucke unterschiedlich bleiben, und gleiche Ausdrucke nicht unter-schiedlich werden, d. h., wenn sich die induzierteAquivalenzrelation nicht andert, bzw.wenn die zugehorigen Matrizen bzgl.∼ aquivalent sind. Es wird zunachst das folgendeLemma gezeigt, das besagt, daß es zur Bestimmung der PartitionΠi(C) genugt, jeweilsnur den oberen (oder den unteren) Teil der MatrixLi(C) sowie die Hauptdiagonale zubetrachten.

Lemma 5.2.1 (Transposition) Fur eine feste Numerierungf liegen(u,v) und(u′,v′)genau dann in derselben Klasse der PartitionΠi(C), wenn(v,u) und(v′,u′) in dersel-ben Klasse liegen. �

Beweis: Der Beweis erfolgt durch vollstandige Induktion uberi. Fur i = 0 entstehtΠi(C) aus der Definition 5.1.2 der AdjazenzmatrixM(C). Man sieht in Definition 5.1.2


leicht, daß der Eintragµz,u ausµu,z dadurch entsteht, daß man die Relationssymbolevon nichtsymmetrischen Relationen durch ihre jeweilige Inverse ersetzt. Sind zweiEintrageµu,z und µu′,z′ gleich, so entstehen durch diese Ersetzung wiederum gleicheEintrageµz,u und µz′,u′ . Sind die beiden Eintrage jedoch verschieden, so sind sie esauch nach der Ersetzung. Man erhalt also die Klasse von(u,v) durch

”Transponierung“

der Elemente in der Klasse von(v,u). Damit ist der Induktionsanfang schon gezeigt.Um denInduktionsschrittzu zeigen, gelte das Lemma nun schon furΠi(C). Wenn

(u,v) und (u′,v′) in derselben Klasse liegen, dann bedeutet dies nach der DefinitionvonΠi(C)

∑z

λiu,zλ

iz,v = ∑

z′λi

u′,z′λiz′,v′ . (5.3)

Die Summen seien so angeordnet, daß sie als Liste gleich sind. Es ist leicht einsehbar,daß die Summen gleich bleiben, wenn man jedes einzelne Symbol jedes Summandendurch das Symbol ersetzt, daß der Klasse des transponiertenEintrags zugeordnet ist.Denn nach Induktionsvoraussetzung ist die vermittelnde Abbildung bijektiv. Es folgtaus der Induktionsvoraussetzung und aus (5.3) also

∑z

λiz,uλi

v,z = ∑z′

λiz′,u′λ

iv′,z′ .

Wenn man nun die beiden Faktoren eines jeden Summanden in derlinken und in derrechten Summe vertauscht, so andern sich zwar die Summen – ihre Gleichheit bleibtjedoch erhalten. Es gilt also

∑z

λiv,zλ

iz,u = ∑

z′λi

v′,z′λiz′,u′

bzw. K i+1(C)(v,u) = K i+1(C)(v′,u′), und damit auchLi+1(C)(v,u) = Li+1(C)(v′,u′),d. h.,(v,u) und(v′,u′) liegen in derselben Klasse. Aufgrund der Symmetrie des Lem-mas ist damit schon alles bewiesen. �

Man benotigt Lemma 5.2.1 zum Beweis eines zweiten Lemmas, in dem man eineleicht modifizierte Multiplikation zur Berechnung des Matrizenproduktes verwendet.Die modifizierte Multiplikation entspricht der

”Dreiecksbildung“ beim Verfahren von

Wysotzki.

Lemma 5.2.2 (Richtungswechsel)Die Folgen der Matrizen

K0(C) = M(C), L0(C) = c0(K0(C)),

K i+1(C) = Li(C)� Li(C), Li+1(C) = ci+1(K i+1(C))

mit der neuen Verknupfung�, die fur Li(C) = (∑zλiu,z) definiert ist als (man beachte

die Reihenfolge der Indizes)

Li(C)� Li(C) = (∑z

λiu,zλ

iv,z) ,

erzeugen die Partitionenfolge(Πi(C))i≥0. Es giltΠi(C) = Πi(C). �


Beweis:Wir beweisen das Lemma durch vollstandige Induktion uberi. Fur i = 0 istΠ0(C) die durch die MatrixL0 induzierte Partition undΠ0(C) die durchL0 erzeugtePartition. Die Gleichheit der Partitionen folgt direkt ausK0 = K0 nach Definition.

Zum Beweis des Induktionsschrittes nimmt man an, daß schonΠi(C) = Πi(C) gilt.Es wird nun gezeigt, daß die Knotenpaare(u,v) und(u′,v′) genau dann dasselbe Poly-nom inLi+1(C) besitzen, wenn sie dasselbe Polynom inLi+1(C) besitzen. Dann sinddie durch die Gleichheit des zugeordneten Polynoms erzeugten Partitionen offensicht-lich identisch. Man geht zunachst von der Gleichung

(∑z

λiu,zλ

iz,v) = (∑

z′λi

u′,z′λiz′,v′) (5.4)

aus. Die Summationsreihenfolge vonz′ sei dabei so, daß die Reihenfolge der Sum-manden in beiden Summen gleich ist. D. h., linke und rechte Seite sind syntaktischidentisch. Aufgrund von Lemma 5.2.1 kann man (5.4) umschreiben zu

(∑z

λiu,zλ

iv,z) = (∑

z′λi

u′,z′λiv′,z′) , (5.5)

indem manλiz,v durchλi

v,z ersetzt (λiz′,v′ entsprechend). Aufgrund der Induktionsvor-

aussetzung folgt aus Gleichung (5.5)

(∑z

λiu,zλ

iv,z) = (∑

z′λi

u′,z′λiv′,z′) .

Damit ist das Lemma bewiesen. �(Lemma 5.2.2)Wir wollen nun den Beweis des Induktionsschrittes von Satz 5.2.1 fortset-

zen. Dazu muß nur noch gezeigt werden, daß die Partition nachder Sum-me ∑zλi

u,zλiv,z = ∑zλi

u,zλiv,z dieselbe Verfeinerung erzeugt wie die Partition mit

niw,w′(u,v) = ‖{z|yi(u,z) = w∧yi(v,z) = w′}‖ undyi+1 = yi ./ ni .

Nach Induktionsvoraussetzung und mit Lemma 5.2.2 gilt

yi(u,v) = yi(u′,v′) gdw. λiu,v = λi

u′,v′,

und man kann eine Bijektion Vec vom Wertebereich vonλi in den Wertebereich vonyi definieren. Man kann durch Umsortieren und Zusammenfassen der Eintrage dieSumme∑zλi

u,zλiv,z umschreiben zu∑b,b′ αbb′bb′, wobeib undb′ uber den Wertebereich

der Kodierungsfunktionci laufen. Die naturliche Zahlαbb′ ≥ 0 gibt an, wie oft derTerm bb′ in der Summe vorkommt. Offensichtlich gibt es zu jedem Vorkommen vonbb′ einen Zwischenknotenz, so daß giltbb′ = λi

u,zλiv,z. Der Termαbb′ gibt somit gerade

die Anzahl solcher Zwischenknotenz an. Setzt manw = Vec(b) undw′ = Vec(b′), sogilt

αbb′ = niVec(b),Vec(b′)(u,v) .

Wurde geltenyi+1 = ni , so hatte man das gewunschte schon bewiesen. Man muß abernoch zeigen, daß der Termyi in der Verfeinerungsvorschriftyi+1 = yi ./ ni in keinezusatzliche Verfeinerung der Partition bewirkt.


Fur u = v folgt die”Uberflussigkeit“ vonyi aus der Tatsache, daß der Vektorni

auch Eintrage fur die Attributeniw,w′ mit w= w′ = yi(u,u) enthalt, die also die Markie-

rung vonu eindeutig kodieren. Durch Hinzunahme vonyi entsteht somit keine feinereUnterteilung in Klassen.

Fur u 6= v betrachtet man den Attributwertniw,w′(u,v) mit w = yi(u,v) und w′ =

yi(v,v). Dieser Eintrag kodiert genau dann in eindeutiger Weise dieMarkierungyi(u,v)der Kante(u,v), wenn es keine Knotenu′, v′ undz′mit v′ 6= z′ gibt, so daßw= yi(u′,z′)undw′ = yi(v′,z′) gilt. In diesem Fall lassen sich(u,v) und(u′,v′) bezuglichni

w,w′ u. U.nicht unterscheiden, obwohl die Markierung der Kante(u′,v′) nicht w ist.

Bei CRS sind Markierungen von Knoten und Kantengrundsatzlichverschieden, day0 so definiert ist, daß Knotenmarkierungen mit einer 1 und Kantenmarkierungen miteiner 0 beginnen. Es laßt sich leicht induktiv zeigen, daß sich diese Unterscheidungin Knoten- und Kantenmarkierungen auf jedesyi ubertragt, auch wenn man die neue,vereinfachte Verfeinerung verwendet. Somit folgt ausw = yi(u,v) und w′ = yi(v,v),daß es keineu′,v′,z′ geben kann mitv′ 6= z′, w = yi(u′,z′) und w′ = yi(v′,z′). Alsoerzeugen die Eintrage derni

w,w′ mit w = yi(u,v) und w′ = yi(v,v) eine mindestens

ebensofeine Partition wie die Werte deryi, d. h., man kann aufyi bei der Verfeinerungverzichten und

yi+1 = ni

setzen. �

Damit ist Satz 5.2.1 vollstandig bewiesen. Aus Satz 5.2.1 folgt:

1. Πi(C) umfaßt eine Vergroberung der Automorphiepartition vonC (Satz 4.3.1).2. Πi+1(C) ist eine Verfeinerung vonΠi(C).3. Es gibt eini∗, fur dasΠi(C) = Πi∗(C) mit i ≥ i∗gilt, d. h., nach einer endlichen

Anzahl von Schritten tritt ein stabiler Zustand ein (Satz 4.3.2).4. Die Polynome inK i(C) bzw. die Symbole inLi(C) konnen zur Bildung von Tripel-

attributen bzw. als Kontextattribute zur Beschreibung vonStrukturen bzw. klassifi-zierten Knoten verwendet werden.

5. Es gibt nichtisomorphe StrukturenC undC′, so daßΠi(C) und Πi(C′) fur alle iadjungiert sind. Ein Beispiel hierfur sindstark regulare Graphenmit denselbenParametern, s. [125] und [47].

5.3 Polynomial-, Pfad-, und Normattribute

Das im letzten Abschnitt vorgestellte Verfeinerungsverfahren, d. h., die Verfeinerungmit Eintragen aus den MatrizenfolgenK i(C) bzw. Li(C) in Def. 5.2.1, ist aquivalentzu CRS und besitzt deshalb auch dieselben Nachteile, was die Bildung des Kontextsbetrifft:

1. Bei der Kontextbildung werden auch solche Kontextknotenberucksichtigt, die nuruber eine bzw. zwei Nullkanten mit dem Knoten bzw. der Kante, fur die der Kontextbestimmt werden soll, verbunden sind.

5.3. Polynomial-, Pfad-, und Normattribute 65

2. Die bei der Kontextbildung betrachtete Pfadlange wachst exponentiell mit der Ite-rationsstufe des Verfahrens.

INDIGO verwendet zur Konstruktion der Attribute deshalb die im folgenden defi-nierten,modifiziertenVersionen der MatrizenfolgenK i(C) bzw. Li(C), bei denen diePfadlange nur nochlinear mit der Iterationsstufe wachst, da in jeder Iterationsstufe mitderursprunglichenAdjazenzmatrix multipliziert wird. Außerdem wird dasleere Poly-nomε – bzw. dessen Kodierung – alsNull der Multiplikation aufgefaßt, wodurch furdie Kontextbildung Nullkanten nicht betrachtet werden. INDIGO kennt die folgendenAttributtypen.

1. Polynomialattributesind eine Verallgemeinerung der Kontextattribute von CRS

und werden aus den Eintragen vonLi(C) gebildet.2. Multipliziert man die formalen Polynome inLi(C) aus, so erhalt man die neue Ma-

trizenfolgePi(C), wobei der EintragPi(C)(u,v) alle Pfade der Langei +1 enthalt,die vonu zu v fuhren (Elementarattribute von Knoten werden als Schlingen be-trachtet werden). Die Pfade werden zur Bildung vonPfadattributenherangezogen(s. Abschnitt 5.3.2).

3. Normattributeals Verallgemeinerung der von CRS bekannten Tripelattribute furdie kontextabhangige Klassifikation werden im Abschnitt 5.3.3 beschrieben. Siewerden ebenfalls ausLi(C) gebildet.

Definition 5.3.1 (Merkmalsmatrizen)

1. Die Matrizenfolgen(K i(C))i≥0 (Kontextpolynommatrizen) und(Li(C))i≥0 (Kon-textsymbolmatrizen) sind furi ≥ 0 definiert durch

K0(C) = M(C), L0(C) = c0(K0(C)),

K i+1(C) = L0(C) ·Li(C),︸︷︷︸

Anderung gegenuber Def. 5.2.1

Li+1(C) = ci+1(K i+1(C)) .

Jede Kodierungci(ε) einer leeren Summeε wird als die Null der Multiplikation beider Bildung vonK i+1(C) aufgefaßt.

2. DiePfadmatrizen(Pi(C))i≥0 sind definiert durch

P0(C) = M(C), Pi+1(C) = M(C) ·Pi(C) , (5.6)

wobeiM(C) ·Pi(C) ausmultipliziert wird (siehe Beispiel). �

Ist a(c) die ausmultiplizierte Form des Kontextsymbols bzw. -polynoms c, so giltPi(C)(u,v) = a(Li(C)(u,v)) = a(K i(C)(u,v)).

Beispiel 5.3.1 (Merkmalsmatrizen) K0(C1), L0(C1), K1(C1), L1(C1) stimmen mitden Matrizen aus Beispiel 5.2.1 uberein (erst furi ≥ 2 andert sich etwas). Es giltP0(C1) = K0(C1) undP1(C1) =


bb+ss′+dd+nd+dn+nn bd+bn+db+nb+ss′ bs+sb+ds+nsbd+bn+db+nb+ss′ bb+ss′+dd+dn+nd+nn bs+sb+ds+nsbs′+s′b+s′d+s′n bs′+s′b+s′d+s′n bb+s′s+s′s

.

Ein Ausdruck wiebb+ ss′ + dd+ nd+ dn+ nn soll im folgenden alsPfadsummebezeichnet werden. Die MatrizenPi(C) bilden den Ausgangspunkt zur Berechnungvon sog. Pfadattributen (s. u.). �

5.3.1 Polynomialattribute

Polynomialattribute sind eine Verallgemeinerung der von CRS bekannten Kontextattri-bute und konnen sowohl fur die Graphklassifikation als auch fur die kontextabhangigeKlassifikation verwendet werden. Ausgangspunkt zur Berechnung der Polynomialat-tribute sind die Matrizenfolgen(Li(C′))i≥0 der TrainingsbeispieleC′∈S. Bei INDIGO

besitzt ein Polynomialattribut die Form(c,s, t). c ist eine Knoten- oder Kantenbe-schreibung (-kontext), die aus einer der MatrizenLi(C′) (C′∈S) stammt.s∈{x,y, x, y}bzw. t∈{x,y, x, y} sind formale Bezeichner, die besagen, auf welche Knoten eines zutransformierenden BeispielsC = (x,G) sich das Attribut bezieht, d. h., welche Kno-tenpaare des Beispiels zur Bestimmung des Attributwerts betrachtet werden.x undybeziehen sich gegebenenfalls auf den bzw. die klassifizierten Knoten, wahrend sich ¯xund y auf Knoten beziehen, die von dem bzw. den klassifizierten Knoten verschiedensind.

Fur die verschiedenen Konzeptstelligkeiten sind unterschiedliche Paare(s, t) beider Bildung von Kontextattributen vorgesehen. Fur die Konzeptstelligkeitk enthalt dieMenge Pairsk die zulassigenBezeichnerpaare. Die Funktion

”Ref“ setzt die Bezeich-

nerpaare zu den Variablen eines zu transformierenden Beispiels in Beziehung, wassowohl fur die Bestimmung der Attribute als auch fur die Transformation eines Bei-spiels von Bedeutung ist. Im folgenden sei Diag(M) = {(x,x) |x∈M} fur eine MengeM definiert.

5.3.1.1 Graphklassifikation: Die Menge der zulassigen Bezeichnerpaare ist

Pairs0 = {(x, x),(x, y)} .

Fur Paare aus Pairs0 und Beispiele der GraphklassifikationC = ((),G) ist Ref definiertdurch

Ref((x, x),C) = Diag(V(C)), Ref((x, y),C) = V(C)2−Diag(V(C))

Mit dem BeispielC1 = ((),G1) aus Beispiel 5.1.2 gilt: Ref((x, x),C1) = {(v11,v

11),

(v12,v

12), (v1

3,v13)} und Ref((x, y),C1) = {(v1

1,v12), (v1

2,v11), (v1

1,v13), (v1

3,v11), (v1

2,v13),

(v13,v

12)}.

Bei der Graphklassifikation hat einKnotenattributdie Form(c, x, x) und charak-terisiert deshalb wie bei CRS eine StrukturC durch die Anzahl der Knoten, die dieMarkierungc in Li(C) besitzen.(c, x, y) charakterisiertC durch die Anzahl der Kan-ten, die die Markierungc besitzen, d. h.,(c, x, y) ist einKantenattribut.


5.3.1.2 Knotenklassifikation: Die Menge der zulassigen Bezeichnerpaare ist

Pairs1 = {(x,x),(x, x),(x, y),(y,x),(x, y)} .

Fur Beispiele der KnotenklassifikationC = ((x0),G) ist Ref definiert durch

Ref((x,x),C) = {(x0,x0)}, Ref((x, x),C) = Diag(V(C))−{(x0,x0)},

Ref((x, y),C) = {x0}× (V(C)−{x0}),

Ref((y,x),C) = (V(C)−{x0})×{x0},

Ref((x, y),C) = (V(C)−{x0})2−Diag(V(C)−{x0}).

Ein Knotenattribut der Form(c,x,x) charakterisiert den klassifizierten Knoten danach,ob er den Kontextc besitzt oder nicht. Ein Knotenattribut der Form(c, x, x) charakteri-siert dieUmgebungdes klassifizierten Knotens durch dieAnzahl aller vom klassifizier-ten Knoten verschiedenen Knoten, die die Markierungc in Li(C) besitzen – d. h., dieVerwendung von ¯x bzw. y impliziert eineQuantifizierung. Das Kantenattribut(c,x, y)

”zahlt“ die Anzahl der Kanten, die vom klassifizierten Knoten zu einem Umgebungs-

knoten fuhren, und die mitc markiert sind. Das Kantenattribut(c, y,x) erklart sichentsprechend. Das Kantenattribut(c, x, y)

”zahlt“ Kanten in der Umgebung vonx, die

also nicht mit dem klassifizierten Knoten inzident sind.

5.3.1.3 Kantenklassifikation: Die Menge der zulassigen Bezeichnerpaare ist

Pairs2 = {(x,x),(y,y),(x, x),(x,y),(y,x),(x, y),(y,x),(x,y),(y, x),(x, y)} .

Fur Beispiele der KantenklassifikationC = ((x0,y0),G) ist Ref definiert durch

Ref((x,x),C) = {(x0,x0)}, Ref((y,y),C) = {(y0,y0)},

Ref((x, x),C) = Diag(V(C))−{(x0,x0),(y0,y0)},

Ref((x,y),C) = {(x0,y0)}, Ref((y,x),C) = {(y0,x0)},

Ref((x, y),C) = {x0}× (V(C)−{x0,y0}),

Ref((y,x),C) = (V(C)−{x0,y0})×{x0},

Ref((x,y),C) = (V(C)−{x0,y0})×{y0},

Ref((y, x),C) = {y0}× (V(C)−{x0,y0}),

Ref((x, y),C) = (V(C)−{x0,y0})2−Diag(V(C)−{x0,y0}).

Mit dem BeispielC1 = ((v11,v

12),G1) gilt: Ref((x,x),C1) = {(v1

1,v11)}, Ref((y,y),C1) =

{(v12,v

12)}, Ref((x, x),C1) = {(v1

3,v13)}, Ref((x,y),C1) = {(v1

1,v12)}, Ref((y,x),C1) =

{(v12,v

11)}, Ref((x, y),C1) = {(v1

1,v13)}, Ref((y,x),C1) = {(v1

3,v11)}, Ref((x,y),C1) =

{(v13,v

12)}, Ref((y, x),C1) = {(v1

2,v13)}, Ref((x, y),C1) = {}. Bei der kontextabhangigen

Klassifikation von Kanten mussen beide Knoten der klassifizierten Kanteberucksichtigt werden, so daß sich ingesamt mehr Moglichkeiten zur Bildung von At-tributen ergeben.


5.3.1.4 Definition der Attribute: Fur ein festesk gilt die Beziehung

[

(s,t)∈PairskRef((s, t),C) = V(C) .

Zu einem BeispielC gibt es außerdem fur jedes Knotenpaar(u,v) genauein (s, t) ∈Pairsk, so daß gilt(u,v)∈Ref((s, t),C). Dies ist fur die Berechnung der Polynomial-attribute aus der gegebenen Trainingsmenge wichtig, bei der alle Knotenpaare in allenBeispielen der Trainingsmenge betrachtet werden.

Definition 5.3.2 (Polynomialattribute) Die Menge der Polynomialattribute, d. h. derKnoten- und Kantenattribute, ist

Polyik(S) = { (Li(C)(u,v),s, t) |C∈S∧ (s, t)∈Pairsk ∧ (u,v)∈Ref((s, t),C)} �

Der Attributwert fur ein Polynomialattribut(c,s, t) und ein BeispielC = (x,G) wirddurch die Attributauswertung definiert.ξ((c,s, t),C) ist die Anzahl der

”passenden“

Knotenpaare inC mit dem Kontextc.

Definition 5.3.3 (Attributauswertung) Fur ein BeispielC = (x,G) und fur ein Poly-nomialattribut(c,s, t) ist die Attributauswertung definiert als

ξ((c,s, t),C) = ‖{ (u,v) |(u,v)∈Ref((s, t),C)∧Li(C)(u,v) = c}‖ .

Fur einen AttributvektorA = (Ai)i≥0 seiξ((Ai)i≥0,C) = (ξ(Ai,C))i≥0. �

Fur eineMengevon AttributenM = {A1, . . . ,An} sei der Attributvektor Lin(M) =(Ai)1≤i≤n eine beliebige lineare Anordnung vonM. Es gilt die folgende Proposition(zur Isomorphie von Strukturen siehe Def. 5.1.1).

Proposition 5.3.1

1. Fur isomorphe Strukturen C und C′ gilt ξ(Lin(Polyik(S)),C) =

ξ(Lin(Polyik(S)),C′) fur alle i (Isomorphieinvarianz)

2. Es gibt nichtisomorphe StrukturenC und C′ mit ξ(Lin(Polyik(S)),C) =

ξ(Lin(Polyik(S)),C′) fur alle i (Nichteindeutigkeit). �

Beispiel 5.3.2 (Polynomialattribute) Wir betrachten zunachst eine Trainingsmengefur das Konzept

”Tor“, deren Konfigurationen den Graphen in Abb. 1.1 entsprechen

und in Beispiel 5.1.1 dargestellt sind:

S0 = {(C1,+),(C2,+),(C3,−),(C4,−)}

mit den BeispielenC1 = ((),G1), C2 = ((),G2), C3 = ((),G3) undC4 = ((),G4). Kno-tenkontexte sind dann beispielsweise(b) und((b)(b)+(s)(s′)+(d+n)(d+n)), Kan-tenkontexte sind(n+d) und ((b)(d+n)+(d +n)(b)+(s)(s′)), vgl. die Matrizen in


a) (((b)(d +n)+(d+n)(b)+(s)(s′)), x, y) :0→−2→+

b) (((b)(d+n)+(d+n)(b)+(s)(s′)),x,y) :0→−1→+

Abbildung 5.2: a) Entscheidungsbaum fur das Konzept”Tor“ mit Kantenattributa4.

b) Entscheidungsbaum f. d. Konzept”Tordurchfahrt“ mit Kantenattributb5.

Beispiel 5.2.1. Da giltk = 0, ergeben sich aus diesen Kontexten u. a. die Knotenpoly-nomialattribute

a1 = ((b), x, x)

a2 = (((b)(b)+(s)(s′)+(d+n)(d+n)), x, x)

und die Kantenpolynomialattribute

a3 = ((n+d), x, y)

a4 = (((b)(d+n)+(d+n)(b)+(s)(s′)), x, y) .

Die Attributwerte, d. h. Teile der zu den Beispielen gehorigen Merkmalsvektoren,lassen sich aus der folgenden Tabelle entnehmen:

ξ a1 a2 a3 a4

C1 3 2 2 2C2 2 2 2 2C3 4 2 2 0C4 3 0 0 0

Offensichtlich trennt das Attributa4, das dem CRS-Kantenattributk3 = y1(v11,v

12) in

Abb. 4.2 entspricht, die Klassen. Ein Entscheidungsbaum, der die Beispiele inS0 kor-rekt klassifiziert, findet sich in Abb. 5.2a). DieInduktionmit CAL 3 oder ID3 (s. Ab-schnitt 5.5) erfolgt mit Hilfe der vollstandigen Merkmalsvektoren.

Wir betrachten nun eine Trainingsmenge fur das Konzept”Tordurchfahrt“, deren

Konfigurationen ebenfalls den Graphen in Abb. 1.1 entsprechen:

S2 = {(C0,−),(C1,+),(C2,+),(C3,−),(C4,−)}

Die Beispiele sind nunC0 = ((v11,v

13),G1), C1 = ((v1

1,v12),G1), C2 = ((v2

1,v22),G2),

C3 = ((v31,v

32),G3) und C4 = ((v4

1,v42),G4). C0 ist ein zusatzliches Beispiel im Ver-

gleich zur CRS-Trainingsmenge in Beispiel 4.6.1 und soll die Verwendung und Be-deutung der formalen Bezeichner verdeutlichen. Aus den Beispielen erhalt man durchKontextbildung u. a. die Knotenattribute

b1 = ((b),x,x),

b2 = ((b), x, x)


sowie die Kantenattribute

b3 = ((s),x,y),

b4 = ((s),x, y),

b5 = (((b)(d+n)+(d+n)(b)+(s)(s′)),x,y) .

Es ergeben sich die Attributwerte in der folgenden Tabelle:

ξ b1 b2 b3 b4 b5

C0 1 1 1 0 0C1 1 1 0 1 1C2 1 0 0 1 1C3 1 2 0 1 0C4 1 1 0 1 0

Offensichtlich trennt das Attributb5 die Klassen. Ein mit CAL 2 erzeugter Entschei-dungsbaum fur

”Tordurchfahrt“ findet sich in Abb. 5.2b). Man beachte, daß sich die

Baume fur”Tor“ und

”Tordurchfahrt“ nur wenig unterscheiden, was den engen Zu-

sammenhang der beiden Konzepte wiederspiegelt. �

5.3.2 Pfadattribute

Pfadattribute der Form(p,s, t) erhalt man aus den Summanden der Eintrage der Matri-zenfolgePi(C). Sie stellen ein gegenuber CRS neues Prinzip der Beschreibung struk-turierter Objekte dar. Der Attributwert fur ein Pfadattribut ergibt sich aus denVielfach-heitendes Pfades in den zu betrachtenden Matrizeneintragen, diewie bei den Poly-nomialattributen durch die formalen Bezeichnerx, x, y und y gekennzeichnet werden.Pfadattribute besitzen, wie sich experimentell bestatigt hat, in manchen Fallen einebessere Generalisierungsfahigkeit als Polynomial- oderNormattribute.

Definition 5.3.4 (Pfadattribute)

1. Die Menge der Pfadattribute ist

Pathik(S) = { (p,s, t) |∃C,u,v : (s, t)∈Pairsk ∧C∈S∧

(u,v)∈Ref((s, t),C))∧ p∈Pi(C)(u,v) } .

2. Die Attributauswertung ist

ξ((p,s, t),C) = ∑(u,v)∈Ref((s,t),C)

Vielfachheit︷︸︸︷

χ( p, Pi(C)(u,v) ) .

Fur einen Vektor von Pfadattributen(Ai)i≥0 seiξ((Ai)i≥0,C) = (ξ(Ai,C))i≥0. �

Es gilt wie bei den Polynomialattributen die folgende Proposition.


a) ((ss′d), x, y) :0→−2→+

b) ((ss′d),x,y) :0→−1→+

Abbildung 5.3: a) Entscheidungsbaum fur das Konzept”Tor“ mit Pfadattribut((ss′d), x, y).

b) Entscheidungsbaum fur”Tordurchfahrt“ mit Pfadattribut((ss′d),x,y).

Proposition 5.3.2

1. Fur isomorphe StrukturenC undC′ gilt ξ(Lin(Pathik(S)),C)= ξ(Lin(Pathik(S)),C′)fur alle i (Isomorphieinvarianz).

2. Es gibt nichtisomorphe StrukturenC und C′ mit ξ(Lin(Pathik(S)),C) =ξ(Lin(Pathik(S)),C′) fur alle i (Nichteindeutigkeit). �

Ersetzt man in Definition 5.3.4 die MatrixPi(C) durch die MatrixK i(C), so ist einPfad p fur i > 0 ein Paar von Kontexten ausL0(C) und Li−1(C), d. h. einen Pfadder Lange zwei. Verwendet man bei der kontextabhangigen Klassifikation von Knotensolche Pfadep und laßt man nur Attribute der Form(p,x,x) zu, so entspricht diesder in Abschnitt 4.6 dargestellten CRS-Beschreibung der Knoten durch dienw,w(u,u).Entsprechend ist die Beschreibung der Kanten bei der Kantenklassifikation durch dienw,w′(u,v) zur Verwendung von Attributen der Form(p,x,y) aquivalent.

Beispiel 5.3.3 (Pfadattribute) Wir betrachten wieder die beiden Klassifikationspro-bleme aus Beispiel 5.3.2. Furk = 0 trennt das Pfadattribut((ss′d), x, y) die Klassen.Furk = 0 tut es das Attribut((ss′d),x,y): siehe Baume in Abb. 5.3. �

5.3.3 Normattribute

Dieser Abschnitt widmet sich der Darstellung von Strukturen mit Hilfe von Norm-attributen, die eine Verallgemeinerung der Tripelattribute von CRS fur die kon-textabhangige Klassifikation darstellen. Wir definieren zunachst fur einen Knotenvdie Menge seinermoglichen normierten Bezeichnerund darauf aufbauendnormierteBenennungender gesamten Knotenmenge einer Struktur. Wie bei CRS werden die Na-men fur einen Knotenv mit Hilfe des Klassennamens Descr(T i

j ) der KlasseT ij von v

in Πi(C) = ∏T ij und Nummern gebildet, deren Maximalwert bei|T i

j | liegt (vgl. Defi-nition 5.2.2).

Definition 5.3.5 (Benennung)

1. Seiv ein Knoten vonC = (x,G). Dann ist

Namesi(C,v) = { (Descr(T ij ),k) |1≤ k≤ |T i

j |}

die Menge der normierten Knotenbezeichner vonv, wenn(v,v)∈T ij .


2. Eine normierte Benennung der Knoten vonC ist eine injektive FunktionB mitB(v)∈Namesi(C,v). Sei Namingsi(C) die Menge aller solchen Benennungen.�

Eine konkrete BenennungB∈Namingsi(C) der Knoten entspricht dann der CRS-Funktion βi aus der Def. 4.2.1. Das dortige Tripelt i(u,v) = (y(u,v),βi(u),βi(v))entspricht somit dem Tripel(L0(C)(u,v),B(u),B(v)). Fur die kontextabhangigeKlassifikation muß das Tripel um zwei Stellen zu einem Quintupel(L0(C)(u,v),B(u),B(v),s, t) erweitert werden mit den Eintragen:

1. L0(C)(u,v) kodiert die Relationen zwischen den Knotenu undv.2. B(u) und B(v) sind die normierten Benennungen der Knotenu und v, wobei die

Benennung aus dem Klassennamen und einer Nummer besteht.3. s, t sind die im letzten Abschnitt definierten formalen Bezeichner, durch deren Wahl

kodiert wird, ob es sich beiu bzw.v gegebenenfalls um den oder einen der klassi-fizierten Knoten handelt.

Fur eine normierte BenennungB der Knoten eines Beispiels erhalt man die zuBgehorigeMerkmalsmenge Mals eine normierte Darstellung vonC, die den von CRS

bekannten Tripelmatrizen prinzipiell entspricht. Die im folgenden definierte Mengealler Merkmalsmengen Setsi(C) ist schon eine isomorphieinvariante und eindeutigeDarstellung vonC, die in die Menge von Merkmalsvektoren Vecsi(C) umgewandeltwird.

Definition 5.3.6 (Merkmalsmengen)

1. Es seiB∈Namingsi(C). Dann ist

M = { (L0(C)(u,v),B(u),B(v),s, t) |(s, t)∈Pairsk ∧ (u,v)∈Ref((s, t),C)}

die zuB gehorige Merkmalsmenge.2. Setsi(C) sei die Menge aller, d. h. zu verschiedenen Benennungen geh¨orenden,

Merkmalsmengen. �

Die Menge der Normattribute fur eine gegebene TrainingsmengeS ist die Menge deruberhaupt konstruierbaren Quintupel.

Definition 5.3.7 (Normattribute)

Normi(S) = {t |∃C : C∈S∧M∈Setsi(C)∧ t∈M} �

Nach Berechnung undAnordnungder Attributmenge Normi(S) kann man zu jederMerkmalsmengeM∈Setsi(C) einen Merkmalsvektor bestimmen, indem man fur einNormattributt∈Normi(S) eine 1 eintragt, wennt in M vorkommt und eine 0, wenntnicht vorkommt.


Definition 5.3.8 (Merkmalsvektoren)

1. FurM∈Setsi(C) undt∈Normi(S) ist die Attributauswertungξ definiert durch

ξ(t,M) =

{0 falls t 6∈M1 falls t∈M.

2. Die Fortsetzung vonξ auf Vektoren(ti)i≥0 von Normattributen sei definiert durchξ((ti)i≥0,M) := (ξ(ti,M))i≥0.

3. Die zu den Normattributen gehorigen Merkmalsvektoren vonC sind definiert als

Vecsi(C) = {

Merkmalsvektor︷︸︸︷

ξ(Lin(Normi(S))︸︷︷︸

Attributvektor

,M) |M∈Setsi(C)} .

�

Es gilt die folgende Proposition.

Proposition 5.3.3

1. Fur isomorphe StrukturenC undC′ gilt Vecsi(C) = Vecsi(C′) fur alle i (Isomor-phieinvarianz).

2. Gilt Vecsi(C) = Vecsi(C′) fur ein i, so sindC undC′ isomorph (Eindeutigkeit).�

Beispiel 5.3.4 (Normattribute) Wir betrachten das BeispielC1 = ((),G1) aus derTrainingsmengeS0 in Beispiel 5.3.2. Fur das BeispielC1 ist die MatrixL1(C1) gegebenin Beispiel 5.2.1. Es sindT1

1 = {(v11,v

11),(v

12,v

12)} undT1

2 = {(v13,v

13)} die Knotenklas-

sen vonΠ1(C1). Die zugehorigen Klassennamen sind

Descr(T11 ) = ((b)(b)+(s)(s′)+(d+n)(d+n)) =: c1 ,

Descr(T12 ) = ((b)(b)+(s′)(s)+(s′)(s)) =: c2 .

Fur die Knoten vonC1 ergeben sich die Bezeichnermengen

Names1(v11,C1) = Names1(v1

2,C1) = {(c1,1),(c1,2)},

Names1(v31,C1) = {(c2,1)} .

Die Menge der moglichen Benennungen Namings1(C1) ist somit

Namings1(C1) = {{v11 7→ (c1,1),v1

2 7→ (c1,2),v13 7→ (c2,1)},

{v11 7→ (c1,2),v1

2 7→ (c1,1),v13 7→ (c2,1)} .

Es gibt die beiden Merkmalsmengen

M1 = {((b),(c1,1),(c1,1), x, x),

((b),(c1,2),(c1,2), x, x),((b),(c2,1),(c2,1), x, x),

((d+n),(c1,1),(c1,2), x, y),((d+n),(c1,2),(c1,1), x, y),

((s),(c1,1),(c2,1), x, y),((s),(c1,2),(c2,1), x, y)

((s′),(c2,1),(c1,1), x, y),((s′),(c2,1),(c1,2), x, y)}

= M2


M1 undM2 sind identisch, und man erhalt mit Betrachtung der Attribute aus den ver-schiedenen Merkmalsmengen aller Beispiele aus den beiden Merkmalsmengen zweiidentische Merkmalsvektoren furC1. Auf die Darstellung der Vektoren und der Induk-tion sei verzichtet.

Wir betrachten nun das Konzept”Tordurchfahrt“, d. h.S2 mit dem BeispielC1 =

((v11,v

13),G1). Die Knoteninnerhalbeiner Automorphieklasse – hier beispielsweisev1

1undv1

2 – sind nun im Gegensatz zur Graphklassifikation evtl. dadurch unterscheidbar,ob sie mit einem der klassifizierten Knoten identisch sind oder oder nicht:v1

1 ist inC1 der erste Knoten der klassifizierten Kante,v1

2 gehort nicht zu den klassifiziertenKnoten.

Es gibt wieder die beiden Benennungen von oben mit den zugeh¨origen Merkmals-mengenM′1 undM′2, die sich nun aufgrund der Zugriffsfunktionen voneinanderunter-scheiden:

M′1 = {((b),(c1,1),(c1,1),x,x),

((b),(c1,2),(c1,2), x, x),((b),(c2,1),(c2,1),y,y),

((d+n),(c1,1),(c1,2),x, y),((d+n),(c1,2),(c1,1), y,x),

((s),(c1,1),(c2,1),x,y),((s),(c1,2),(c2,1), x,y),

((s′),(c2,1),(c1,1),y,x),((s′),(c2,1),(c1,2),y, x)}

M′2 = {((b),(c1,1),(c1,1), x, x),

((b),(c1,2),(c1,2),x,x),((b),(c2,1),(c2,1),y,y),

((d+n),(c1,1),(c1,2), y,x),((d+n),(c1,2),(c1,1),x, y),

((s),(c1,1),(c2,1), x,y)((s),(c1,2),(c2,1),x,y),

((s′),(c2,1),(c1,1),y, x),((s′),(c2,1),(c1,2),y,x)}

Es ergeben sich also zwei verschiedene Merkmalsvektoren zur Reprasentation vonC1.�

5.3.4 Kombination unterschiedlicher Kontexttiefen

Normattribute unterschiedlicher Kontexttiefen lassen sich nicht ohne weiteres kombi-nieren. Dies liegt daran, daß fur ein festesi jedem Merkmalsvektor eine Merkmalsmen-geM∈Setsi(C) zugeordnet ist, und jedesM wiederum einer bestimmten Permutationder Nummern fur die Knoten innerhalb jeder der KlassenT i

j (C) in der PartitionΠi(C)

entspricht. GiltB(v) = (Descr(T ij ),k) fur ein k mit 1≤ k≤ |Tj |, so ist diese Permuta-

tion p definiert durchp(v) = k. Fur i′ > i kann die PartitionΠi′(C) = ∏T i′j eine echte

Verfeinerung vonΠi(C) darstellen. Zerfallt eine KlasseT ij in die kleineren Klassen

T ij =

[

j ′=1,...,J′T i′

j ′ (5.7)

so kann man aus einer Permutationp fur T ij die zuT i′

j ′ gehorige bzw. konsistente Per-mutationp′ wie folgt konstruieren. Seiv1, . . . ,vn eine Anordnung der Knoten in einer

5.4. Generalisierung von Attributen 75

TeilklasseT i′j ′ bezuglich derp-Werte, d. h.,vm < vl impliziert p(vm) < p(vl ). Dann ist

die neue Funktionp′(vm) = m die zu p konsistente Permutation der Elemente inT i′j ′ .

Man kommt mitp unter Berucksichtigung von (5.7) zu der neuen Benennung

B(vm) = (Descr(T i′j ′ ),m) ,

die zu p konsistent ist und mit deren Hilfe sich aus der Merkmalsmenge M eine umNormattribute der Kontexttiefei′> i erweiterte MerkmalsmengeM′ und naturlich auchein erweiterter Merkmalsvektor berechnen laßt. Offensichtlich kann man auf diese Artund Weise Normattribute mehrerer Kontexttiefen miteinander kombinieren, wobei dieAnzahl der erzeugten Merkmalsvektoren von der Feinheit derPartition der kleinstenKontexttiefei abhangt.

5.4 Generalisierung von Attributen

Ein Problem von INDIGO und von CRS besteht darin, daß die Verfahren die moglicheIrrelevanz von Literalen bzw. Kanten bei der Bildung von Strukturattributen nichtberucksichtigen (vgl. Abschnitt 4.7). Irrelevante Literale liefern keinerlei Informati-on uber die zu erlernende Klassifikation. Dies kann im Extremfall dazu fuhren, daßdie Objekte der Trainingsmenge keine gemeinsame Knoten- und Kantenmerkmale be-sitzen. D. h., daß kein Klassifikator mit generalisierendenEigenschaften gelernt wer-den kann. Die Kontextattribute verschiedener Beispiele besitzen dann nur gemeinsa-me klassifikationsrelevanteTeile, die zur Bildung einer Hypothese ermittelt werdenmussen. Diese klassifikationsrelevanten Teile entstehenaus den ursprunglichen Kon-textattributen durch Vereinfachung, d. h. durch Weglassenvon irrelevanter strukturellerInformation. Um die vereinfachten Attribute mit den urspr¨unglichen Merkmalen derTrainingsbeispiele in Beziehung zu setzen, benotigt man eine Generalisierungsbezie-hung zwischen Kontextbeschreibungen bzw. zwischen Attributen gleicher Ordnung.

Wir betrachten zunachst eine Ordnung fur die Kontexte, d.h. Kontextsymbole,Kontextpolynome und Pfadsummen: Fur Kontextpolynome 0-ter Ordnung (EintrageausK0) p undq gilt p≤ q, wennp wenigerRelationen umfaßt alsq. Fur Kontextpo-lynome(i +1)-ter Ordnung (Eintrage ausK i+1) p undq gilt p≤ q, wenn es eine Zu-ordnung der Summandenrs in p zu den Summanden vonq gibt, so daß fur die beidenKontextsymboler unds die Beziehungr ≤ r ′ unds≤ s′ gilt, wennr ′s′ der Summandvonq ist, derrs zugeordnet wurde (d. h. Rekursion). Kontextsymbole (Eintrage ausLi)sind durch die zugehorigen Kontextpolynome ausK i geordnet. Fur Pfadsummeni-terOrdnung (Eintrage ausPi) gilt p� q, wennp weniger Pfade umfaßt alsq.

Beispiel 5.4.1Es gilt ε < n < n+d fur die Kontextpolynomeε, n undn+d und des-halb fur die zugehorigen Kontextsymbole() < (n) < (n+d). Es gilt(b)(d+n)+(d+n)(b) < (b)(d + n) + (d + n)(b) + (s)(s′), da der zweite Ausdruck den zusatzlichenSummand(s)(s′) besitzt. Es gilt

(b)(n)+(n)(b)+(s)() < (b)(d+n)+(d+n)(b)+(s)(s′) ,


mit der Injektionh(1) = 1,h(2) = 2,h(3) = 3, die eine Zuordnung der Summanden inden beiden Ausdrucken herstellt. Notwendig sind hier die Beziehungen(n) < (n+d)und() < (s′). Ein Beispiel fur den Vergleich von Pfadsummen ist

bn+nd+ss′ ≺ bd+bn+db+nd+ss′ .

Man kann Kontextpolynome, Kontextsymbole und Pfadsummen unabhangig von denzugehorigen Matrizen alseigenstandigesyntaktische Strukturen auffassen, was z. B.bei der Vereinfachung von Attributen sinnvoll ist, bei der u. U. vereinfachte Kontext-polynome, Kontextsymbole oder Pfadsummen erzeugt werden,die nicht in einer derMatrizen auftreten, aber dennoch sinnvoll interpretierbar sind. �

Die Generalisierung von Kontexten kann formal wie folgt dargestellt werden.

Definition 5.4.1 (Kontextgeneralisierung)

1. Fur Kontextpolynome 0-ter Ordnung (Eintrage ausK0) p = ∑sαss undq = ∑sβssgilt: p≤ q gdw.∀s βs≤ αs.

2. Fur Kontextpolynome(i + 1)-ter Ordnung (Eintrage ausK i+1) p = ∑nj=1 r jsj und

q= ∑n′j ′=1 r ′j ′s

′j ′ gilt p≤ q, wenn es eine Injektionh : {1, . . . ,n} −→ {1, . . . ,n′} gibt,

fur die gilt∀ j r j ≤ r ′h( j)∧sj ≤ s′h( j) .

3. Fur Kontextsymbole (Eintrage ausLi) beliebiger, aber gleicher Ordnungc und dgilt: c≤ d gdw.(ci)−1(c)≤ (ci)−1(d).

4. Fur Pfadsummeni-ter Ordnung (Eintrage ausPi) gilt: p� q gdw. p⊆ q. �

Die Ordnung fur Kontexte laßt sich auf Attribute ubertragen.

Definition 5.4.2 (Attributgeneralisierung)

1. Fur Polynomialattributep = (c,u,v) undq = (c′,u′,v′) gilt p≤ q, wennc≤ c′ giltsowieu = u′ undv = v′.

2. Fur Normattributet1 = (c,(τ1,k1),(τ2,k2),u,v) und t2(c′,(τ′1,k′1),(τ

′2,k′2),u

′,v′)gilt t1≤ t2, wenn giltc≤ c′, τ1≤ τ′1, τ2≤ τ′2, k1 = k′1, k2 = k′2, u= u′ undv= v′. �

Pfadattribute kann man ordnen, indem man Leerstellen (Wildcards) in die Pfadeeinfuhrt. Obwohl dies in INDIGO realisiert ist, soll auf eine genaue Darstellung hierverzichtet werden.

Es gilt der folgende Satz, der den Zusammenhang zwischen Monomorphismenund den oben definierten Generalisierungsbeziehungen herstellt. Der Satz kann auchzur Uberprufung der Existenz von Monomorphismen verwendet werden.

Satz 5.4.1

1. Es seienC undC′ Strukturen mit dem Monomorphismusθ : C−→C′. Dann geltenfur jedesi und fur alleu undv die Beziehungen

Li(C)(u,v)≤ Li(C′)(θ(u),θ(v))

K i(C)(u,v)≤ K i(C′)(θ(u),θ(v))

Pi(C)(u,v)� Pi(C′)(θ(u),θ(v))


2. Gilt fur Kontextsymbole oder Kontextpolynomei-ter Ordnungp undq die Bezie-hungp≤ q, so gilt fur die zugehorigen, ausmultiplizierten Pfadsummena(p) unda(q) die Beziehunga(p)� a(q). �

Beweisvon Aussage 1. Die Behauptung 1 besagt, daß sich die Teilstrukturbeziehungsowohl auf die kontextabhangigen Knoten- und Kantenattribute als auch auf die Pfa-dattribute ubertragt, wenn man die zu den entsprechendenAttributen gehorigen Ver-allgemeinerungsbeziehungen≤ bzw.� betrachtet.

Die Aussage wird fur die FolgeK i(C) durch vollstandige Induktion bewiesen. Furi = 0 folgt die Aussage direkt aus der Teilstrukturbeziehung. DaC mit θ inC′ einbettbarist, konnen zwischenu undvhochstens die Relationen bestehen, die zwischenθ(u) undθ(v). Somit gilt alsoK0(C)(u,v)≤ K0(C′)(θ(u),θ(v)).

Zum Beweis des Induktionsschrittes wird angenommen, daß schon fur alleu undvdie Beziehung

K i(C)(u,v)≤ K i(C′)(θ(u),θ(v))

gilt. Man betrachtet nun die zu(u,v) und(θ(u),θ(v)) gehorenden Polynome inK i(C)bzw.K i(C′)

p = ∑w

κ0u,wκi

w,v und q = ∑w′

λ0θ(u),w′λ

iw′,θ(v) ,

wobei dieκiu,z Eintrage aus der FolgeLi(C) und dieλi

u,z Eintrage ausLi(C′) seien.Die Summeq wird nun so umgeordnet, daß die Summe uberθ(w) lauft, d. h.

q = ∑w

λ0θ(u),θ(w)λ

iθ(w),θ(v) +Rest

Restsei derjenige Anteil vonq, der durch Pfade uber solche Knoten vonC′ entsteht,die nicht im Wertebereich vonθ liegen.

Man wahlt nun die Injektionh als h(w) = θ(w). Zu zeigen bleibt, daßκ0u,w ≤

λ0θ(u),θ(w) und κi

w,v ≤ λiθ(w),θ(v) gilt. Die Beziehungκ0

u,w ≤ λ0θ(u),θ(w) entspricht dem

Induktionsanfang. Die Beziehungκiw,v≤ λi

θ(u),θ(w) gilt nach Induktionsvoraussetzung.

Damit ist das Behauptete fur allei bewiesen. Fur die MatrizenfolgeLi folgt der Beweisdurch Anwendung der Kodierungsfunktion. FurPi folgt der Beweis mit Aussage 2.Beweisvon Aussage 2. Die Behauptung 2 liefert einen intuitive Erklarung der Relation≤ fur Kontextpolynome und Kontextsymbole: istp allgemeiner alsq, so spezifiziertp weniger Pfade alsq. Der Beweis der Behauptung erfolgt wieder durch vollstandigeInduktion uberi. Fur i = 0 folgt die Aussage wie beim Beweis von Behauptung 1. Furdie 0-te Ordnung entsprechen sich Kontextpolynome und Pfadsummen gerade.

Fur i +1 sei

p =n

∑i=1

r isi und q =n′

∑i′=1

r ′i′s′i′

und es geltep≤ q. Es muß nun gezeigt werden, daßa(p) ≺ a(q) ist. Nach Defini-tion von≤ gibt es einh mit ∀ i r i ≤ r ′h(i) ∧ si ≤ s′h(i). Nach Induktionsanfang bzw.


Induktionsvoraussetzung gilt dann aucha(r i) ≺ a(r ′h(i)) und a(si) ≺ a(s′h(i)) fur dieausmultiplizierten Formen. Die eigentliche Behauptung folgt nun aus einem einfachenkombinatorischen Argument fur die Konkatenation der Pfade in a(r i) unda(si) bzw.in a(r ′h(i)) unda(s′h(i)). �

5.4.1 Attributauswertungen

Die Generalisierungsbeziehung≤ kann zur Berechnung des Attributwertes fur kon-textabhangige Knoten- und Kantenattribute sowie fur Normattribute herangezogenwerden. Fur einen AttributvektorA und ein ObjektC seiξ(A,C) die

”normale“ Attri-

butauswertung, wie in Abschnitt 5.3 definiert. Die Attributauswertungξ berucksichtigtdie Verallgemeinerungsbeziehung≤ dadurch, daß bei der Bestimmung des Attribut-wertes fur ein Attributa und ein ObjektC nicht nur solche Matrizeneintrage vonLi(C)berucksichtigt werden, diea direkt entsprechen, sondern auch solche Eintrage, die spe-zieller alsa sind. Eine wichtige Eigenschaft vonξ ist deshalb, daß der Merkmalsvektorξ(A,C) aus dem Merkmalsvektorξ(A,C) ermittelt werden kann. Dazu muß man furein Attributφ nur die Werte aller Attributeψ∈A addieren, fur dieφ≤ ψ gilt, d. h.

ξ(φ,C) = ∑φ≤ψ

ξ(ψ,C) .

Definition 5.4.3 (Attributauswertungen) Bei INDIGO werden alternativ die folgen-den Attributauswertungen:

1. die Attributauswertungξ (Abschn. 5.3),2. die Attributauswertungξ,3. die Attributauswertungξ(0,1), die fur ein AttributA und ein BeispielC definiert ist

durch

ξ(0,1)(A,C) =

{0 falls ξ(A,C) = 01 falls ξ(A,C) > 0,

4. und die Attributauswertung

ξ(0,1)(A,C) =

{

0 falls ξ(A,C) = 01 falls ξ(A,C) > 0. �

Fur Tripelattribute giltξ(0,1)(A,C) = ξ(A,C). Bei Pfadattributen istξ(A,C) = ξ(A,C)und, da keine Generalisierungsbeziehung fur die Attribute betrachtet wird.

5.4.2 Separierbarkeit bei geordneten Attributmengen

Man kann sich fragen, ob die Verwendung der Attributauswertungξ anstelle vonξ dieUnterscheidbarkeit der Objekte bezuglich eines festen Satzes von Attributen vermin-dert. Das dies nicht so ist, sagt der folgende, allgemein formulierte Satz.


a) ((()(d)+ (s)(s′)), x, y) :0→−2→+

b) ((()(d)+ (s)(s′)),x,y) :0→−1→+

Abbildung 5.4: a) Vereinfachter Entscheidungsbaum fur das Konzept”Tor“ mit vereinfachtem

Kantenattributa4.b) Vereinfachter Entscheidungsbaum fur das Konzept

”Tordurchfahrt“ mit ver-

einfachtem Kantenattributb5.

Satz 5.4.2Die AttributeA seien bezuglich≤ partiell geordnet, und es gelte|A| < ∞.Es sei die Attributauswertungξ gegeben. Die neue Attributauswertungξ ist fur einAttribut φ∈A und ein ObjektC definiert durch

ξ(φ,C) = ∑φ≤ψ

ξ(ψ,C) .

Dann gilt:∃φ ξ(φ,C1) 6= ξ(φ,C2) gdw. ∃ψ ξ(ψ,C1) 6= ξ(ψ,C2). �

Beweis von→: Seiξ(φ,C1) 6= ξ(φ,C2). Es seiAφ = {ρ |φ≤ ρ}. Seiψ∈Aφ maximalmit ξ(ψ,C1) 6= ξ(ψ,C2) (ψ ist i. a. nicht eindeutig und es gilt evtl.ψ = φ). Man erhalt

ξ(ψ,C1)− ξ(ψ,C2) = ∑ψ≤ρ

ξ(ρ,C1)− ∑ψ≤ρ

ξ(ρ,C2)

= ξ(ψ,C1)+ ∑ψ<ρ

ξ(ρ,C1)−ξ(ψ,C2)− ∑ψ<ρ

ξ(ρ,C2)

= ξ(ψ,C1)−ξ(ψ,C2)

6= 0

Denn aufgrund der Wahl vonψ gilt ∑ψ<ρ ξ(ρ,C1) = ∑ψ<ρ ξ(ρ,C2).

Beweis von←: Sei nunξ(ψ,C1) 6= ξ(ψ,C2). Sei φ ∈Aψ maximal mit ξ(φ,C1) 6=

ξ(φ,C2). Dann gilt

ξ(φ,C1)−ξ(φ,C2) = ξ(φ,C1)+ ∑φ<ρ

ξ(ρ,C1)−ξ(φ,C2)−∑φ<ρ

ξ(ρ,C2)

= ξ(φ,C1)− ξ(φ,C2)

6= 0

Wodurch die Behauptung bewiesen ist. �

5.4.3 Vereinfachung des Klassifikators

Nach der Induktion eines KlassifikatorsD aus der transformierten TrainingsmengeS′

wird der KlassifikatorD durch dieReduktion der Struktur der Attributein D weiter ver-einfacht. Bei der Attributvereinfachung wird versucht, die Kontextsymbole in Kontext-


und Normattributen durch Weglassen definierender Teile (d.h. Summanden) zu verein-fachen. Es werden nur solche Teile in einer Kontextbeschreibung geloscht, durch derenFehlen sich der Trainingsfehler auf der TrainingsmengeS′ nicht verschlechtert. Furjedes Teil, das weggelassen werden kann, muß also jedesmal die gesamte Trainings-menge mit der vereinfachten HypotheseD′ klassifiziert werden, wodurch das Verein-fachungsverfahren einen sehr hohen Aufwand besitzt (s. u.). Da die Attributwerte furein vereinfachtes AttributA nur mit Hilfe der Attributauswertungenξ bzw. ξ(0,1), d. h.unter Verwendung der Generalisierungsbeziehung≤, ermittelt werden konnen, erfolgtbei Verwendung der Attributauswertungenξ bzw.ξ(0,1) grundsatzlichkeineVereinfa-chung der Attribute.

Beispiel 5.4.2Vereinfachte Versionen der Baume in Abb. 5.2 finden sich in Abb. 5.4.

5.5 Induktion, Klassifikation und Aufwand

Wir beschließen die theoretische Darstellung von INDIGO mit einer Zusammenfassungdes Verfahrens. Die Lernfunktion INDIGOΛ,κ,ζ,Θ(S) besitzt dieParameter:

1. Λ: einpropositionaler Lernalgorithmusmit evtl. eigenen Parametern. Als Lernver-fahren kann im Prinzip jedes propositionale Verfahren eingesetzt werden. Bishereingebunden wurden:(a) CAL 3: eine modifizierte Version von CAL 3, bei der in jedem Blatt ein lokal

optimales Attribut berechnet wird, mit den ParameternS1 undS2.(b) ID3: eine modifizierte Version von ID3, bei der die Verfeinerung des Baums

mit dem CAL 3-Kriterium beendet wird (und nicht mit demχ2-Test), d. h., dasVerfahren hat ebenfalls die ParameterS1 undS2.

2. κ: die gewahlteKontexttiefe3. ζ: die gewahlteAttributauswertung(alsoξ, ξ, ξ(0,1) oderξ(0,1)),4. Θ: eineAuswahlfunktionfur die zu verwendenden Attributarten– die Attributarten

konnen getrennt oder kombiniert zur Induktion verwendet werden. IstA ein Attri-butvektor, so enthalt der VektorΘ(A) die gewunschten Attribute ausA. Bei denin Abschnitt 5.6 dargestellten Experimenten wurden die einzelnen Attributartengetrennt untersucht.

Das Verfahren INDIGOΛ,κ,ζ,Θ(S) hat die gegebene TrainingsmengeS als Eingabe undbesteht aus den folgenden Schritten:

1. Konstruktion der Attribute:Berechne die Attributvektoren (s. Abschnitt 5.3) durch

Poly= Θ(Lin(Sκ

i=0Polyik(S))), Path= Θ(Lin(

Sκi=0Pathik(S))),

Norm= Θ(Lin(Sκ

i=0Normik(S))).

Es seiA = Poly./ Path undA′ = Norm./ A.

5.5. Induktion, Klassifikation und Aufwand 81

2. Transformation:Sei Vecs(C) die Menge der Merkmalsvektoren, die bezuglich derNormattribute Norm furC erzeugt werden (Abschnitt 5.3.3). Die transformierteTrainingsmenge ergibt sich zu

S′ = { ( M ./ ζ(A,C)︸︷︷︸

Merkmalsvektor

,c) | ∃C : (C,c)∈S∧M∈ Vecs(C)︸︷︷︸

Norm-Merkmalsvektoren

} .

3. Induktion:Lerne ausS′ den KlassifikatorD mit dem AlgorithmusΛ.4. Simplifikation (nur bei ζ = ξ und ζ = ξ(0,1)): Vereinfache die Attribute inD

bezuglich der in Abschnitt 5.4 definierten Generalisierungsbeziehungen. Manerhalt so einen vereinfachten KlassifikatorD′.

5. Resultat:Das Ergebnis von INDIGOΛ,κ,ζ,Θ(S) ist D bzw. D′, wenn eine Vereinfa-chung durchgefuhrt wurde.

5.5.1 Klassifikation

Zur Klassifikation eines neuen Objekts mit dem KlassifikatorD muß dieses zunachstin einen Merkmalsvektor bzw. bei Verwendung von Normattributen in eine Reihe vonMerkmalsvektoren transformiert werden. Dazu mussen die beim Lernen berechnetenKodierungsfunktionen und Attribute fur die Transformation der Beispiele verwendetwerden, um die Vergleichbarkeit der Reprasentationen beider Klassifikation mitDzu gewahrleisten. Bei Verwendung der Attributauswertungen ξ bzw. ξ(0,1) erfolgt dieKlassifikation durch Berucksichtigung der Generalisierungsbeziehungen fur die Attri-bute.

5.5.2 Aufwand

Die folgenden Aufwandsbetrachtungen sind durchweg Worst-Case-Abschatzungen.Im folgenden bedeutetf = O(g), daß die Funktionf hochstens so stark wachst wieg,d. h., es gibt Konstantenx0 undc, so daß fur allex > x0 gilt f (x)≤ cg(x). Der folgen-de Satz gibt den Aufwand der einzelnen Lernschritte fur dieverschiedenen Arten derAttribute an.

Satz 5.5.1 (Aufwand) Es seis die Große der Trainingsmenge,n die maximale Kno-tenanzahl,r die maximale Anzahl von Relationen pro Knoten bzw. Kante undκ dieKontexttiefe. Dann gilt:

1. Aufwand fur den Matrizenaufbauκ≥ 0:O(sn2r(logr + logs+ logn)+κ(sn3(logs+ logn)))

2. Anzahl Polynomialattribute:O((κ+1)sn2)3. Aufwand fur die Transformation bei Polynomialattributen undξ:

O(sn2r(logr + logs+ logn)+κsn3(logs+ logn)+κs2n4)

4. Aufwand fur die Transformation bei Polynomialattributen undξ:O(sn2r(logr + logs+ logn)+κsn3(logs+ logn)+κs2n4r(n!)κ)

5. Aufwand fur den Pfadmatrizenaufbau:O(sn2nκrκ+1)


6. Anzahl Pfadattribute:O(snκ+2rκ+1)

7. Aufwand fur die Transformation bei Pfadattributen:O(s2n2κ+4r2κ+2)

8. Anzahl Normattribute:O(κsn!)9. Aufwand fur die Transformation bei Normattributen:

O(sn2r(logr + logs+ logn)+κ(sn3(logs+ logn))+sn!κsn!)10. Aufwand fur den Baumaufbaum mit ID3: O((s−1)‖A‖s) = O(s2 · ‖A‖)11. Aufwand fur die Entscheidung von≥: O(r(n!)κ)

12. Aufwand fur die Simplifikation bei Polynomialattributen undξ: O(s2r2nκ(n!)κ) �

Auf eine Darstellung der Herleitung des Aufwands wurde aus Platzgrunden ver-zichtet. Das wichtigste Ergebnis ist, daß bei Verwendung von Polynomialattributenund ξ der Aufwand der gesamten Induktion ein Polynom in den Parametern s, r , nund κ ist. Verwendet man die Attributauswertungξ so wird der Aufwand durch dasUberprufen der Generalisierungsbeziehung dominiert undist polynomiell innnκ – esgilt O(n!) = O(nn). Vereinfacht man die Attribute, so ist der Aufwand dafur ebenfallspolynomiell in nnκ und zusatzlich quadratisch ins. Bei Verwendung von Pfadattri-buten hangt der Transformationsaufwand exponentiell vonder Kontexttiefe ab undwird durch die Anzahl der generierten Pfade verursacht. BeiNormattributen hangt derTransformationsaufwand von der Symmetrie der Beispiele abund ist im schlimmstenFalle polynomiell innn.

5.6 Experimente

In diesem Abschnitt soll die Leistungsfahigkeit von INDIGO anhand von vier Da-tensatzen untersucht und bewertet werden.

1. Der Blocks-World-Datensatz (z. B. [126,119,32,33]) istein kunstlicher Datensatzmit 28 Beispielen, bei dem die Konzepte

”Tor“ (k = 0) und

”Tordurchfahrt“ (k = 2)

gelernt werden sollen – siehe Abb. 5.5.2. Der Mesh-Design-Datensatz ([19]) ist ein Datensatz zum Erlernen von Konstruk-

tionsregeln fur den Entwurf von Gittermodellen fur die Methode der Finiten Ele-mente.

3. Der Mutagenesis-Datensatz – beschrieben in [111,57,113,110,112] – umfaßt diebeiden DatensatzeMutagenesis42und Mutagenesis188mit 42 bzw. 188 klassifi-zierten chemischen Substanzen zur Ursache-Wirkungsanalyse bei mutagenen Aro-maten und Heteroaromaten.

4. Bei den Chess-Endgame-Daten geht es darum, Regeln zu lernen, mit denen manunzulassige Stellungen beim Schachendspiel erkennen kann (s. z. B. [87]).

Die in diesem Abschnitt beschriebenen Experimente wurden mit einer C++-Implementierung von INDIGO auf einer Sparc20 von SUN durchgefuhrt.

5.6. Experimente 83

E11 - (-) E12 - (-) E13 - (-) E14 - (-) E15 - (-) E9 - (-) E10 - (-) E16 -(-)

E20 + (+) E21 + (+) E22 + (+)E17 - (-) E18 - (-) E19 - (-)

E1 + (+) E2 - (-) E3 - (-) E4 + (+) E5 - (-) E6 + (+) E7 - (-) E8 - (-)

E23 + (+) E24 + (+) E25 + (+) E26 + (+) E27 + (+) E28 + (+)

Abbildung 5.5: Der Blocks-World-Datensatz fur die Konzepte”Tor“ und

”Tordurchfahrt“. Die

Abbildung reprasentiert beide Trainingsmengen. Die Klasse zum Lernen desKonzepts

”Tor“ ist direkt hinter der Beispielbezeichnung angegeben.Fur das

Konzept”Tordurchfahrt“ ist jeweils das helle Bausteinpaar klassifiziert. Die

zugehorige Klasse findet sich in Klammern und stimmt auf Grund der Wahlder jeweiligen Kante mit der Klasse des Gesamtobjekts uberein.

5.6.1 Blocks World

Im folgenden sollen die in Abbildung 5.5 dargestellten Datensatze betrachtet werden.Unter jeder Konfiguration in der Abbildung ist ihr Name, die Klasse des Gesamtobjek-tes beim Erlernen des Konzepts

”Tor“ (k = 0), und in Klammern die Klasse des hellen

Bausteinpaares zum Erlernen des Konzepts”Tordurchfahrt“ (k = 2) zu finden. Zur Be-

schreibung der Konfigurationen werden die in Abschnitt 4.1 dargestellten Relationenb, p, n, d undsverwendet.

Obwohl bei INDIGO die verschiedenen Attributarten kombinierbar sind, wurdebeiden im folgenden dargestellten Experimenten nur jeweils genau ein Typ verwendet,um die Eigenschaften der einzelnen Attributarten beurteilen zu konnen.

Wir wollen uns im folgenden zunachst dem Erlernen des Konzepts”Tor“ mit Poly-

nomialattributen zuwenden. Wahlt man die Kontexttiefe 1 und die Attributauswertungξ(0,1), so erhalt man mit ID3 den in Abbildung 5.6a) dargestellten Baum, bei demdas Kantenattribut(((b)(n+d)+(n+d)(b)+(s)(s′)), x, y) zur Trennung der Klassenausreicht. Eine graphische Interpretation des Attributs findet sich in Abb. 5.7a).


a)”Tor“, Polynomialattribute,κ =1, ζ = ξ(0,1), Λ =ID3:

(((b)(n+d)+(n+d)(b)+(s)(s’)),x,y)0→ – (E−19 E−18 E−17 E−16 E−15 E−14 E−13 E−12 E−11 E−10 E−9 E−8 E−7 E−5 E−3 E−2 )1→ + (E+

28 E+27 E+

26 E+25 E+

24 E+23 E+

22 E+21 E+

20 E+6 E+

4 E+1 )

b)”Tor“, Polynomialattribute,κ =1, ζ = ξ, Λ =ID3:

(((b)(n+d)+(n+d)(b)+(s)(s’)),x,y)0→ – (E−19 E−18 E−17 E−16 E−15 E−14 E−13 E−12 E−11 E−10 E−9 E−7 E−5 E−3 E−2 )2→ + (E+

28 E+27 E+

26 E+25 E+

24 E+4 E+

1 )4 → + (E+

23 E+22 E+

21 E+20 E+

6 )6 → + (E+

21)8 → + (E+

22)

c)”Tor“, Polynomialattribute,κ =1, ζ = ξ(0,1), Λ =ID3:

(((b)(n+d)+(n+d)(b)+(s)(s’)),x,y)0→ – (E−19 E−17 E−16 E−15 E−14 E−13 E−12 E−11 E−10 E−9 E−7 E−5 E−3 E−2 )1→ (((b)(n+d)+(n+d)(b)+(s’)(s)), x,y)

0→ + (E+28 E+

27 E+26 E+

24 E+23 E+

22 E+21 E+

20 E+6 E+

4 E+1 )

1→ (((b)(b)+(n+d)(n+d)+(s)(s’)+(n)(n)), x,x)0→ – (E−18 E−8 )1→ + (E+

25)

d)”Tor“, Polynomialattribute, vereinfachter Baum furκ =1, ζ = ξ(0,1), Λ =ID3:

(((b)()+(d)(b)+()()),x,y)0→ – (E−19 E−17 E−16 E−15 E−14 E−13 E−12 E−11 E−10 E−9 E−5 E−3 E−2 )1→ (((s’)(s)), x,y)

0→ + (E+28 E+

27 E+26 E+

24 E+23 E+

22 E+21 E+

20 E+6 E+

4 E+1 )

1→ (((d)()+(s)()+(n)()), x,x)0→ – (E−18 E−8 E−7 )1→ + (E+

25)

e)”Tordurchfahrt“, Polynomialattribute,κ = 1, ζ = ξ(0,1), Λ =ID3:

(((b)(n+d)+(n+d)(b)+(s)(s’)),x,y)0→ –1→ (((b)(n+d)+(n+d)(b)+(s’)(s)),x,y)

0→ +1→ –

f)”Tor“, Pfadattribute,κ = 4, ζ = ξ(0,1), Λ =ID3:

((dbss’b),x,x)0→ – (E−19 E−17 E−16 E−15 E−14 E−13 E−12 E−11 E−10 E−9 E−7 E−5 E−3 E−2 )1→ ((s’sd),x,x)

0→ + (E+28 E+

27 E+26 E+

24 E+23 E+

22 E+21 E+

20 E+6 E+

4 E+1 )

1→ ((dn),x,y)0→ – (E−18 E−8 )1→ + (E+

25)

Abbildung 5.6: Blocks-World: Fur”Tor“ und

”Tordurchfahrt“ gelernte Entscheidungsbaume

5.6. Experimente 85

x

sn+d

ys

n+d

s sx xyx

b b

b b

n n+d

s

b d b

ss

d)c)b)a)

Abbildung 5.7: Graphische Interpretationen:a) Kantenattribut(((b)(n+d)+(n+d)(b)+(s)(s’)), x,y) aus dem Baum inAbb. 5.6c),b) Kantenattribut (((b)(n+d)+(n+d)(b)+(s’)(s)), x,y) aus dem Baum inAbb. 5.6c),c) Knotenattribut(((b)(b)+(n+d)(n+d)+(s)(s’)+(n)(n)), x,x) aus dem Baum inAbb. 5.6c),d) Pfadattribut((dbss’b),x,x) aus dem Baum in Abb. 5.6f).

Verwendet man die Attributauswertungξ (Multiplizitaten), so erhalt man denBaum in Abbildung 5.6b), bei dem im Vergleich zum Baum in Abb.5.6a) die

”+“-

Klasse weiter unterteilt ist. Verwendet man die Attributauswertungξ(0,1), d. h., be-trachtet man die Testattribute als

”Teilstrukturen“, so erhalt man den komplizierte-

ren Baum in Abb. 5.6c). Obwohl das Wurzelattribut noch mit den vorigen Baumenubereinstimmt, mußten offensichtlich zusatzliche Bedingungen eingefuhrt werden, diebei ξ(0,1) nicht notwendig waren. Die Attributauswertungξ(0,1) erzeugt fur den gege-

benen Datensatz besser generalisierende Merkmale alsξ(0,1). An dem Baum in Abbil-dung 5.6c) zeigt sich jedoch, daß INDIGO in der Lage ist, komplexe Begriffshierarchienzu erzeugen.

Durch Vereinfachung der Attributstruktur erhalt man schließlich den Baum in Ab-bildung 5.6d). Man beachte die geringere Komplexitat im Vergleich zum Baum inAbb. 5.6c) und das geanderte Klassifikationsverhalten bezuglich des BeispielsE7.

Den Baum fur das Konzept”Tordurchfahrt“ fur die Kontexttiefe 1, die Attribut-

auswertungξ(0,1) und Polynomialattribute zeigt Abbildung 5.6e). Trotz des engen Zu-sammenhangs der Konzepte

”Tor“ und

”Tordurchfahrt“ werden durch den Baum nur

drei Unterklassen definiert, wahrend der Baum fur das Konzept”Tor“ bei gleichen

Parametereinstellungen vier Unterklassen besitzt (Abb. 5.6c)). Das Konzept”Tor“ ist

schwieriger zu lernen als”Tordurchfahrt“, da bei

”Tor“ mogliche Tordurchfahrten ge-

funden werden mussen, wahrend bei”Tordurchfahrt“ nur entschieden werden muß, ob

ein Paar von Knoten eine Tordurchfahrt bildet.

Die Tabelle 5.1 stellt in den Zeilen 1 und 2 die Anzahlen der generierten Poly-nomialattribute fur verschiedenen Kontexttiefen dar. Eszeigt sich, daß es wesentlichweniger Knotenattribute als Kantenattribute gibt. Fur hohe Kontexttiefen wachst dieAnzahl der Attribute ungefahr linear mit der Zahl der Knoten bzw. Kanten.

In Abbildung 5.6f) ist ein mit Pfadattributen lernbarer Entscheidungsbaum darge-stellt, dessen Wurzelattribut die Kontexttiefe 4 besitzt.Die in Abbildung 5.7d) darge-


Kontexttiefe 0 ≤ 1 ≤ 2 ≤ 3 ≤ 4 ≤ 5

Knotenattribute 2 31 86 172 262 353

Kantenattribute 4 53 206 382 562 742

Pfadattribute 6 46 274 1390 6552 29576

Kontexttiefe 0 = 1 = 2 = 3 = 4 = 5

Normattribute 323 419 520 559 566 566

‖S′‖ 6540 43 40 35 35 35

Tabelle 5.1:Zeile 0: KontexttiefeZeilen 1-3: Attributanzahlen fur verschiedene Attributtypen jeweils bis zu der an-gegebenen KontexttiefeZeile 4: KontexttiefeZeile 5: Anzahl der Normattribute bei der jeweiligen Kontexttiefe.Zeile 6: Große der Trainingsmenge bei Verwendung von Normattributen.

stellte Struktur des Attributes laßt sich unter Berucksichtung der Stelligkeit der Rela-tionssymbole eindeutig rekonstruieren.

Pfadattribute haben gegenuber Polynomialattributen denVorteil, daß die Komple-xitat ihrer Definition nur linear mit der Kontexttiefe wachst, wahrend die Komplexitatvon Polynomialattributen exponentiell mit der Kontexttiefe ansteigt Deshalb besit-zen Pfadattribute oft bessere generalisierende Eigenschaften als Polynomialattribute,s. Abschnitt 5.6.3.

Beim Lernen mit Normattributen ist neben der Gute der Hypothese und der At-tributanzahl vor allem die Große der erzeugten TrainingsmengeS′ von Interesse (Ta-belle 5.1). In der funften Zeile der Tabelle findet sich die Anzahl der erzeugten Nor-mattribute (bei dieser Kontexttiefe und nicht wie bei Polynomial- und Pfadattributenbis zudieser Kontexttiefe). In der sechsten Zeile findet sich die erzeugte Anzahl derVektoren. Wie man in Tab. 5.1 sieht, ist die fur die Iterationsstufe 1 erzeugte neueTrainingsmenge wesentlich großer als die ursprunglicheTrainingsmenge mit ihren 28verschiedenen Objekten.

Ein Nachteil bei der Verwendung von Normattributen bestehtdarin, daß die Sta-tistik der Trainingsmenge dadurch verfalscht wird, daß f¨ur verschiedene Objekte eineunter Umstanden sehr stark variierende Anzahl von Merkmalsvektoren erzeugt wird.Wahrend es in der ursprunglichen Trainingsmenge 12 Beispiele und 16 Gegenbeispielegibt, gibt es bei der Kontexttiefe 1 24 Beispiele und 19 Gegenbeispiele. Das Verhaltnisvon Beispielen zu Gegenbeispielen hat sich also von 0.43 zu 0.56 verandert. Wenn manwie bei den Polynomialattributen die Kontexttiefe 1 als optimal annimmt, so erhaltman einen Entscheidungsbaum, der komplexer ist als die Baume fur Polynomialattri-bute und Pfadattribute und eine großere Anzahl von Unterklassen definiert (d. h., derBaum besitzt mehr Blatter). In den durchgefuhrten Experimenten haben die Nachtei-le der Normattribute (Verfalschung der Statistik, Aufwand) deren Voreile (verlustfreieReprasentation) deutlich uberwogen.

5.6. Experimente 87

5.6.2 Mutagenesis-Daten

In diesem Abschnitt werden Experimente mit dem Mutagenesis-Datensatz beschrie-ben. Dieser Datensatz ist im Hinblick auf praktische Anwendungen relationaler Lern-verfahren von besonderem Interesse, da die computergestutzte Entwicklung neuerWirkstoffe (Drug Design) in den letzten Jahren immer starker an Bedeutung gewon-nen hat. Chemische Substanzen haben eine inharent relationale Struktur, da sie ausuntereinander in Wechselwirkung stehenden Atomen bestehen.

Im folgenden wird die Mutagenitat einer chemischen Substanz betrachtet, die engmit ihrer Karzinogenitat zusammenhangt. Stark mutagen wirkende Substanzen konnenkrebserregend wirken. Eine besonders wichtige Fragestellung besteht deshalb in derVorhersageder Mutagenitat, insbesondere fur nitroaromatische undheteroaromatischeVerbindungen (z. B. [13]), wie sie in Kraftfahrzeugabgasenund in vielen chemischenProzessen auftreten konnen. Da nicht jede Substanz empirisch auf ihre Mutagenitathin getestet werden kann, ist es von besonderem Interesse, strukturelle Indikatoren furdie Gefahrlichkeit einer Substanz zu finden. Ein struktureller Klassifikator kann alsoals Teil eines chemischen

”Fruhwarnsystemes“ dazu verwendet werden, die mogliche

Gefahrlichkeit einer Substanz auch ohne Labortests anzuzeigen.Der vorliegende Datensatz ([111,57,113,110,112]) enthalt 230 nitro- und he-

teroaromatische Substanzen, die in einer pradikatenlogischen Beschreibung vorliegen,wie sie das Molecular Modelling System QUANTA benutzt. Fur jede dieser Substanzenist ihre logarithmische Mutagenitat gegeben, die mit dem Ames Test unter Benutzungvon S. Typhimurium TA98 ermittelt wurde ([13]). Die Struktur einer Substanzd wirddurch die Pradikateatm/5undbond/4dargestellt, die einzelne Atome und deren Bin-dungen beschreiben. Ein Faktum der Formatm(d,d1,Element,Type,Charge)gibt an,daß die Substanzd ein Atom mit dem Bezeichnerd 1 besitzt, welches zum ElementElementgehort, und das die partielle elektrische LadungChargebesitzt. Neben demElement ist zu jedem Atom zusatzlich der QUANTA -interne AtomtypTypeals Zahlgegeben, der Information uber die Bindungsverhaltnissedes Atoms innerhalb des Mo-lekules kodiert – beispielsweise ob ein C-Atom Teil eines oder zweier oder mehrererzusammenhangender Benzolringe ist etc. Die Bindung zwischen zwei Atomen wirddurch Literale der Formatm(d,d1,d 2,Bond)spezifiziert, wobeiBond die Werte1(Einerbindung),2 (Doppelbindung),3 (Dreierbindung) und7 (hybride Bindung) an-nehmen kann. Zusatzlich gibt es fur jede Substanz die folgenden vier propositionalen

”Attribute“, die ebenfalls durch Literale dargestellt werden: Das AttributlogPgibt die

NO2

Abbildung 5.8: Das Mutagend1


atm(d1, d11, c, 22, -0.117). atm(d1, d12, c, 22, -0.117). atm(d1, d13, c, 22, -0.117).atm(d1, d14, c, 195, -0.087). atm(d1, d15, c, 195, 0.013). atm(d1, d16, c, 22, -0.117). atm(d1, d17, h, 3, 0.142). atm(d1, d18, h, 3, 0.143). atm(d1, d19, h, 3,0.142). atm(d1, d110, h, 3, 0.142). atm(d1, d111, c, 27, -0.087). atm(d1, d112,c, 27, 0.013). atm(d1, d113, c, 22, -0.117). atm(d1, d114, c, 22, -0.117). atm(d1,d1 15, h, 3, 0.143). atm(d1, d116, h, 3, 0.143). atm(d1, d117, c, 22, -0.117). atm(d1,d1 18, c, 22, -0.117). atm(d1, d119, c, 22, -0.117). atm(d1, d120, c, 22, -0.117).atm(d1, d121, h, 3, 0.142). atm(d1, d122, h, 3, 0.143). atm(d1, d123, h, 3, 0.142).atm(d1, d124, n, 38, 0.812). atm(d1, d125, o, 40, -0.388). atm(d1, d126, o, 40,-0.388). bond(d1, d11, d1 2, 7). bond(d1, d12, d1 3, 7). bond(d1, d13, d1 4, 7).bond(d1, d14, d1 5, 7). bond(d1, d15, d1 6, 7). bond(d1, d16, d1 1, 7). bond(d1,d1 1, d1 7, 1). bond(d1, d12, d1 8, 1). bond(d1, d13, d1 9, 1). bond(d1, d16, d1 10,1). bond(d1, d14, d1 11, 7). bond(d1, d111, d112, 7). bond(d1, d112, d113, 7).bond(d1, d113, d114, 7). bond(d1, d114, d15, 7). bond(d1, d113, d115, 1).bond(d1, d114, d116, 1). bond(d1, d111, d117, 7). bond(d1, d117, d118, 7).bond(d1, d118, d119, 7). bond(d1, d119, d120, 7). bond(d1, d120, d112, 7).bond(d1, d117, d121, 1). bond(d1, d118, d122, 1). bond(d1, d120, d123, 1).bond(d1, d124, d119, 1). bond(d1, d124, d125, 2). bond(d1, d124, d126, 2).logp(d1, 4.23). lumo(d1, -1.246). ind1(d1, 1.0). inda(d1,0.0).act(d1, 2.11). active(d1).benzene(d1, [d16, d1 1, d1 2, d1 3, d1 4, d1 5]). benzene(d1, [d15, d1 14, d113,d1 12, d111, d14]). benzene(d1, [d120, d112, d111, d117, d118, d119]).ring size6(d1, [d1 6, d1 1, d1 2, d1 3, d1 4, d1 5]). ring size6(d1, [d1 5, d1 14,d1 13, d112, d111, d14]). ring size6(d1, [d1 20, d112, d111, d117, d118,d1 19]). nitro(d1, [d1 19, d124, d125, d126]). phenanthrene(d1, [[d16, d1 1,d1 2, d1 3, d1 4, d1 5], [d1 5, d1 14, d113, d112, d111, d14], [d1 20, d112,d1 11, d117, d118, d119]]).

Abbildung 5.9: Logische Beschreibung des Molekulsd1: Strukturbeschreibung mitatm/5undbond/4, propositionale

”Attribute“ des Gesamtmolekuls, die Mutagenitat und

die mit der sog. Ringtheorie abgeleiteten Fakten.

Hydrophobizitat der Substanz an, das AttributLUMO das Energieniveau des niedrig-sten unbesetzten Orbitals. Das AttributI1 ist eine Indikatorvariable, die angibt, ob dieSubstanz drei oder mehr Benzolringe besitzt.Ia ist eine Indikatorvariable, die angibt,ob es sich bei der Substanz um ein Acenthryl handelt.

Neben den Daten ist eine sog.Ring-Theoriegegeben, mit der bestimmte chemi-sche Teilstrukturen, beispielsweise Benzolringe, identifiziert und in Form zusatzlicherLiterale zum Lernen verwendet werden konnen. Zu einer chemischen Struktur ist ihreMutagenitat, d. h. die Klassifikation, sowohl als reeller Wert als auch diskretisiert alsKlassenliteral angegeben. Eine vollstandige Beschreibung der mutagenen Substanzd1(Abbildung 5.8) ist in Abb. 5.9 angegeben.

5.6. Experimente 89

two(X26, X24), two(X24, X26), two(X25, X24), two(X24, X25), one(X19, X24),one(X24, X19), one(X23, X20), one(X20, X23), one(X22, X18), one(X18, X22),one(X21, X17), one(X17, X21), seven(X12, X20), seven(X20,X12), seven(X20, X19),seven(X19, X20), seven(X19, X18), seven(X18, X19), seven(X18, X17), seven(X17,X18), seven(X17, X11), seven(X11, X17), one(X16, X14), one(X14, X16), one(X15,X13), one(X13, X15), seven(X5, X14), seven(X14, X5), seven(X14, X13), seven(X13,X14), seven(X13, X12), seven(X12, X13), seven(X12, X11), seven(X11, X12), se-ven(X11, X4), seven(X4, X11), one(X10, X6), one(X6, X10), one(X9, X3), one(X3,X9), one(X8, X2), one(X2, X8), one(X7, X1), one(X1, X7), seven(X1, X6), seven(X6,X1), seven(X6, X5), seven(X5, X6), seven(X5, X4), seven(X4, X5), seven(X4, X3), se-ven(X3, X4), seven(X3, X2), seven(X2, X3), seven(X2, X1), seven(X1, X2), le0(X26),type40(X26), o(X26), le0(X25), type40(X25), o(X25), gt0(X24), type38(X24), n(X24),gt0(X23), type3(X23), h(X23), gt0(X22), type3(X22), h(X22), gt0(X21), type3(X21),h(X21), le0(X20), type22(X20), c(X20), le0(X19), type22(X19), c(X19), le0(X18), ty-pe22(X18), c(X18), le0(X17), type22(X17), c(X17), gt0(X16), type3(X16), h(X16),gt0(X15), type3(X15), h(X15), le0(X14), type22(X14), c(X14), le0(X13), type22(X13),c(X13), gt0(X12), type27(X12), c(X12), le0(X11), type27(X11), c(X11), gt0(X10), ty-pe3(X10), h(X10), gt0(X9), type3(X9), h(X9), gt0(X8), type3(X8), h(X8), gt0(X7), ty-pe3(X7), h(X7), le0(X6), type22(X6), c(X6), gt0(X5), type195(X5), c(X5), le0(X4), ty-pe195(X4), c(X4), le0(X3), type22(X3), c(X3), le0(X2), type22(X2), c(X2), le0(X1),type22(X1), c(X1)

Abbildung 5.10: Transformierte Strukturbeschreibung des Molekulsd1

In der Literatur werden meist mehrere, entweder zwei oder vier verschiedene Ver-sionen des Datensatzes betrachtet (S1 und S2 bzw. B1-B4). Die Datensatze unterschei-den sich vor allem darin, ob die Ringtheorie und die propositionalen Attribute (Indi-katorvariablen) neben der Strukturbeschreibung im Datensatz enthalten sind. Da wiruns vor allem die Lernbarkeit von Konzepten aus relational strukturierten Beschrei-bungen interessieren, wird folgenden vorausgesetzt, daß die Datenbeschreibung nuraus den Pradikatenatmundbondbesteht. Insbesondere werden die Indikatorvariablenund die Ringtheorie nicht zum Lernen verwendet, da diese dasLernproblem erheblichvereinfachen ([57]). Die Indikatorvariablen wurden so gewahlt, daß schon mit ihnenalleine das Konzept der Mutagenitat in vielen Fallen gut gelernt werden kann. Ver-wendet man also diese Variablen zusammen mit der Strukturinformation, so wird diestrukturelle Information in vielen Fallen gar nicht mehr benotigt, so daß die Verwen-dung relationaler Information durch das Lernverfahren schlecht beurteilt werden kann.Die Ringtheorie wurden in den Experimenten nicht verwendet, da die hinzukommen-de Information redundant in Bezug auf die Strukturbeschreibung ist – d. h., sie ist mitHilfe von Regeln aus dieser ableitbar. Hypothesen, die Pradikate aus der Ringtheorieverwenden, konnen also auch direkt mit Hilfe der strukturellen Pradikate formuliertwerden. Die von uns verwendete Version der Daten entsprichtder Variante S1, die mitB2 identisch ist.


H1

7

1

H

77

1

H

7

C C

C

C7

H

1

77

H

1

71 2

O

2

ON

7

1

H

7

C C

C7

77

1

H H

171

H

7

C

C C

C

CC

7

C

7 1

6

2

8 9

15

4

173

11

12

13

20

19

18

21 22

24

25

26

2314

16

10

5

Abbildung 5.11: Die Darstellung des Mutagensd1 als Graph (ohne Atomtypen u. Ladungen)

Aufgrund des graphentheoretischen Charakters von INDIGO konnten die Datennicht in ihrer ursprunglicheren Darstellung (vgl. Abb. 5.9) zum Lernen verwendetwerden. Fur die Experimente wurde deshalb eine transformierte Darstellung verwen-det (vgl. Abb. 5.10). Insbesondere wurden die ursprunglich verwendeten Konstantenauf einstellige Pradikate abgebildet, und diebond-Relation in eine Reihe zweistelligeRelation transformiert (eine Relation fur jeden Bindungstyp). Insgesamt wurden diefolgenden Pradikate zur Beschreibung einer Substanz verwendet:

el(x): Das Atomx besitzt das Elementel∈{c,h,n,o,cl, . . .}. Z. B. gilt c(x), wennxein Kohlenstoff ist.

typeT(x): Das Atomx besitzt den AtomtypT. Es gilt beispielweisetype22(x), wennes sich beix um ein C-Atom vom QUANTA -internen Typ

”22“ handelt.

le0(x), gt0(x): Das Atomx besitzt eine elektrische Partialladung von≤ 0 bzw.> 0.one(x1,x2), two(x1,x2), three(x1,x2), seven(x1,x2): Zwischen den Atomenx1 undx2

besteht eine Einer-, Doppel, Dreier- bzw. hybride Bindung.

Mit diesen Pradikaten erhalt man furd1 die transformierte Darstellung in Abb. 5.10,die in Abb. 5.11 als Graph dargestellt ist. Die Diskretisierung des Ladungsattributsist notwendig, da die Version von INDIGO, mit der die Experimente fur diese Arbeitdurchgefuhrt wurden, nicht in der Lage ist, reellwertige Strukturattribute automatischzu diskretisieren. Die vorgenommene Diskretisierung in positive und negative Elemen-tarladungen ist relativ naturlich und erwies sich in den Experimenten als gunstig. Dadie Diskretisierung des Attributes schon vorgegeben ist und nicht mehr gelernt wer-den muß, vereinfacht sich die Lernaufgabe betrachtlich. Allerdings wurden die gutenErgebnisse von INDIGO in Tabelle 5.2 in Experimenten mit einer fur reelle Strukturin-formationen erweiterten Version von INDIGO bestatigt (siehe [82]).

In der Literatur wurde eine Einteilung des Gesamtdatensatzes in zwei Teilda-tensatze vorgenommen. Der TeildatensatzMutagenesis188umfaßt dabei 188

”regres-

5.6. Experimente 91

Algorithmus Mutagenesis188 Mutagenesis42

Lineare Regression0.85 0.67NN 0.86 0.64CART 0.83 0.83PROGOL 0.81 0.86FOIL 0.81 -INDIGO 0.90 0.88TRITOP 0.86 0.88

Tabelle 5.2:Genauigkeit fur relationale und propositionale Algorithmen (Mutagenesis188: 10-fache Cross Validation,Mutagenesis42: Leave-One-Out-Methode).Lineare Regression, NN, CRS: propositionale Attribute.PROGOL, FOIL, INDIGO, TRITOP: Molekulstruktur ohne propositionale Attributeund Ringtheorie (Datenversion S1 bzw. B2).

sionsfreundliche“ Substanzen, d. h. solche Substanzen, deren Mutagenitat gut mit Hil-fe einer Regressionsformel vorhergesagt werden kann, die die vier oben genanntenpropositionalen Attribute (Variablen) enthalt. Der TeildatensatzMutagenesis42enthalthingegen 42 “regressionsunfreundliche” Substanzen. Um die Vergleichbarkeit mit denErgebnissen von anderen Lernsystemen zu gewahrleisten, wurde diese Unterteilungdes Datensatzes bei den Experimenten beibehalten.

In Tabelle 5.2 (Zeilen 1-5 aus [113]) finden sich die Lernergebnisse (Vorhersagege-nauigkeit) fur die Lineare Regression, ein Backpropagation-Netz, fur das Lernverfah-ren INDCART (einer Implementierung des Lernverfahrens CART ([8])), fur PROGOL,fur FOIL, fur INDIGO und fur TRITOP. Die drei propositionalen Lernverfahren besit-zen furMutagenesis188eine relativ große Genauigkeit, wahrend furMutagenesis42nur das Baumregressionsverfahren INDCART gut abschneidet. Die relationalen Lern-verfahren PROGOL, FOIL, INDIGO und TRITOP sind im Vergleich zu den propositio-nalen Verfahren in der Lage, die Mutagenitat direkt aus derrelationalen Struktur, d. h.ohne Verwendung der propositionalen Attribute und der Ringtheorie, vorherzusagen.

Fur die verwendete Version des Datensatzes erreicht das Lernsystem INDIGO mit90% furMutagenesis188und 86% furMutagenesis42eine hohere Genauigkeit als diebeiden ILP-Lernverfahren FOIL und PROGOL. Gegenuber FOIL besitzt INDIGO denVorteil, daß die Polynomialattribute Beschreibungen komplexer Merkmale darstellen,die durch die Hill-Climbing-Suche von FOIL teilweise nicht gefunden werden, vgl.Abschnitt 6.2.2. Gegenuber PROGOL besitzt INDIGO den Vorteil, daß auch das Fehleneiner Struktur als klassifizierungsrelevant erkannt werden kann. Dies ist beim Daten-satzMutagenesis188von Bedeutung.

Fur INDIGO gibt die Tabelle 5.2 das Lernergebnis fur von Hand ermittelte optima-le Parametereinstellungen an.Mutagenesis188: Verfahren ID3, Polynomialattribute,κ = 1, Attributauswertungξ, S2 = 1.0, S1 = 0; Mutagenesis42: Verfahren ID3, Poly-nomialattribute,κ = 1, Attributauswertungξ(0,1), S2 = 1.0, S1 = 35. Mit Pfadattribu-ten konnten etwa gleich gute Ergebnisse wie mit Polynomialattributen erzielt werden,


32

3028

26

24

22

20

18

16

14

0.9

0.8

0.7

0.6

0.5

0

50

40

30

20

10

0

30

28

26

24

22

20

18

16

14

12

0.9

0.8

0.7

0.6

0.5

0

50

40

30

20

10

0

Abbildung 5.12: Fehlerraten furMutagenesis188und Mutagenesis42als Funktionen vonS1

(linke horizontale Achse) undS2 (rechte horizontale Achse)

allerdings mit wesentlich hoherem Berechnungsaufwand. Mit Normattributen ließensich auf Grund des zu hohen Aufwands uberhaupt keine Ergebnisse erzielen.

Verwendet man beiMutagenesis188die Attributauswertungξ(0,1) (binare Baume)anstelle vonξ, so erhalt man eine im Vergleich zur Tabelle 5.2 etwas schlechtereGenauigkeit von 86%, allerdings wesentlich besser interpretierbare Baume. Der Un-terschied von 4% in der Lernrate ist ein Hinweis auf dieRelevanz der Multiplizitatder Teststruktur, die von der Attributauswertungξ berucksichtigt wird. Hier besitztINDIGO einen klaren Vorteil gegenuber den rein logischen Verfahren FOIL und PRO-GOL.

In Abbildung 5.12 sind die Fehlerraten fur einige Werte vonS1 ∈ [1,50] undS2∈ [0.5,1.0] bei Verwendung von ID3 mit ξ(0,1) und Polynomialmerkmalen der Stufe1 dargestellt. Man sieht zum einen, daß die beiden Fehlergebirge und damit auch diebeiden TeildatensatzeMutagenesis188undMutagenesis42einen vollig unterschiedli-chen Charakter besitzen, zum anderen, daß in beiden Diagrammen die Randkurven furS1 = 0 undS2 = 1.0 jeweils einen ahnlichen Verlauf nehmen.

An Abb. 5.12 zeigt sich auch, daß INDIGO wesentlich schneller als ist als PROGOL.Es benotigt fur einen Baumaufbau wenige Sekunden, wahrend bei PROGOL die Re-chenzeit im Bereich von Stunden und sogar Tagen liegt. Mit PROGOL ware dieErzeugung von Fehlergebirgen wie in Abb. 5.12 auf Grund der vielen erforderli-chen Testlaufe kaum moglich. Die Schnelligkeit eines Lernverfahrens bestimmt dieMoglichkeit zur automatischen Einstellung von Parametern mit einem geeignetenSuch- bzw. Optimierungsverfahren.

Die Abbildung 5.13 zeigt den furξ(0,1) optimalen, jedoch nicht vereinfachten Ent-scheidungsbaum furMutagenesis188. Besonders interessant ist, daß auch Struktur-merkmale fur die Klasseinactivegewahlt wurden. Der optimale Entscheidungsbaumfur Mutagenesis42ist in Abb. 5.14) zu finden. Offensichtlich wird die Klasseactivedurch das Fehlen einer Struktur charakterisiert. Man kann fur die aktiven Beispiele

5.6. Experimente 93

((c,le0,type27),x,x)0→ ((c,gt0,type29),x,x)

0→ (((one)(c,gt0,type10)+(le0,n,type34)(one)),x,y)0→ (((seven)(c,gt0,type26)+(c,gt0,type26)(seven)),x,y)

0→ (((one)(c,le0,type10)+(c,type22,gt0)(one)),x,y)0→ (((seven)(c,type22,gt0)+(c,type22,gt0)(seven)),x,y)

0→ ((c,type22,gt0),x,x)0→ (((one)(one)+(one)(one)+(one)(one)+(one)(one)+

(c,gt0,type10)(c,gt0,type10)),x,x)0→ ((le0,n,type34),x,x)

0→ ((le0,cl,type93),x,x)0→ active1→ inactive

1→ inactive1→ inactive

1→ (((one)(c,gt0,type10)+(c,type22,le0)(one)),x,y)0→ (((two)(le0,o,type40)+(c,gt0,type14)(two)),x,y)

0→ inactive1→ active

1→ active1→ ((le0,cl,type93),x,x)

0→ (((two)(le0,o,type40)+(c,gt0,type14)(two)),x,y)0→ ((le0,o,type45),x,x)

0→ active1→ inactive

1→ inactive1→ inactive

1→ active1→ active

1→ inactive1→ ((le0,n,type32),x,x)

0→ active1→ ((c,gt0,type10),x,x)

0→ inactive1→ active

1→ (((seven)(le0,n,type35)+(c,le0,type27)(seven)),x,y)0→ active1→ inactive

Abbildung 5.13: Mutagenesis188: ID3, S1 = 5, S2 = 1.0, Polynomialattribute,κ = 1, ξ(0,1).

dennoch eine sinnvolle gemeinsame Teilstruktur bilden, s.Abschnitt 8. Bei dem gege-ben Datensatz impliziert das Fehlen der durch das Attribut in Abb. 5.14) spezifizierten


(((c,type22,le0)(one)+(one)(gt0,n,type38)),x,y)0→ active1→ inactive

Abbildung 5.14: Mutagenesis42: ID3, S1 = 35,S2 = 1.0, Polynomialattribute,κ = 1, ξ(0,1).

Struktur das Vorkommen einer anderen Struktur. Dieses Verhalten entsteht durch dieQUANTA -interne Typisierung der Atome.

Wir wollen im folgenden fur den DatensatzMutagenesis188(VersionB2aus [113],d. h. Strukturrelationen und Ladungen) zeigen, daß das Lernergebnis von INDIGO miteiner Gute von 90% und einer Standardabweichung von 5.05% signifikant besser istals die vErgebnisse von PROGOL (81%sd3%) und FOIL (ebenfalls 81%sd3%) – dieErgebnisse von PROGOL und FOIL stammen aus [113].

Zum Vergleich der Verfahren wird der in Anhang B beschriebene Test mitn1 =n2 = 10, x1 = 0.9, x2 = 0.81,s1 = 0.05 unds2 = 0.03 verwendet. Man testet die Hy-potheseH01 : µ1−µ2 ≤ d fur d = 0 gegenH11 : µ1−µ2 > d (INDIGO ist besser alsFOIL/PROGOL). H01 muß verworfen werden, fallst > tν;1−α gilt. Die approximativeAnzahl der Freiheitsgrade ist

ν =(

s21

n1+

s22

n2)2

(s21n1

)2

n1−1 +(

s22n2

)2

n2−1

= 14.7≈ 14

Der t-Wert ist

t =x1− x2−0√

s21

n1+

s22

n2

= 4.8

Das 0.95-Quantil der t-Verteilung istt14;0.95 = 2.145, daß 0.99-Quantil istt14;0.99 =2.624. Also mußH01 verworfen werden. D. h., INDIGO ist fur diese Version des Da-tensatzes signifikant genauer als FOIL und PROGOL (α = 0.05 undα = 0.01).

Verwendet man den DatensatzMutagenesis188in der Version B4, so erreichtPROGOL eine Genauigkeit von 88% und FOIL eine Genauigkeit von 81%. PROGOL

erzeugt dann eine Hypothese, die nur noch von den propositionalen Attributen und derRingtheorie abhangt und nicht mehr von der eigentlichen Strukturbeschreibung.

FurMutagenesis42sind in der Literatur keine Experimente mit angegebenen Vari-anzen dokumentiert.

5.6.3 Finite Element Mesh Design

Die Methode der Finiten Elemente (FEM) ist ein numerisches Verfahren zur Analy-se von physikalischen Belastungen und Verformungen dreidimensionaler Korper. DieAuswirkung von Druck auf einen solchen Korper kann mit Hilfe von Differentialglei-chungen beschrieben werden. Zur Durchfuhrung der Analysemit Hilfe eines Rechners

5.6. Experimente 95

kann man die physikalische Struktur (s. z. B. Abb. 5.15, rechte Seite) durch einGitter-modell(Abb. 5.15, linke Seite) beschreiben. Die Deformation eines Elementes des Mo-dells kann mit Hilfe von linearen algebraischen Gleichungen approximativ berechnetwerden. Um eine moglichst genaue Approximation zu erhalten, muß das Gittermodellgewissen Qualitatsmerkmalen genugen. Zum einen sollte es in Bereichen, in deneneine starke Deformation erwartet wird, weil etwa eine hohe physikalische Belastungvorliegt, moglichst fein sein, um zu große Approximationsfehler zu vermeiden. In Ge-bieten geringer erwarteter Verformung sollte das Gitter hingegen so grob wie moglichsein, um den Rechenaufwand zur Losung der Gleichungen so klein wie moglich zuhalten.

Der Entwurf eines solchen Netzes ist meist eine sehr zeitaufwendige Arbeit, die imallgemeinen von Experten durchgefuhrt werden muß. Die automatische Konstruktioneines angemessenen Gittermodelles ist deshalb von großem Nutzen. Das maschinel-le Lernen kann in diesem Rahmen dazu eingesetzt werden, um Regeln zu lernen, diedas Verhalten eines Experten beim Entwurf eines Netzes modellieren. Dazu mussen ingeeigneter Form Beispielstrukturen vorgegeben werden, f¨ur die ein passendes Gitter-modell schon konstruiert wurde. Ein solcher Datensatz furdas Lernverfahren GOLEM

wurde erstmalig in [19] beschrieben (siehe auch [18,20]).

Der in [19] dargestellte Datensatz enthalt 5 Beispielstrukturen, im folgendenA,B, C, D undE genannt. Die Beschreibung einer Beispielstruktur umfaßt die Geome-trie der Struktur zusammen mit den wirkenden physikalischen Belastungen (qualita-tiv). Das zugehorige, vorgegebene Gittermodell wird implizit dadurch beschrieben,daß fur jede Kante der physikalischen Struktur dieAnzahl deraquidistanten Unter-teilungengegeben ist. Das eigentliche Gitter ergibt sich, indem man die aquidistantangeordneten Unterteilungspunkte einer Kante mit den entsprechenden Punkten dergegenuberliegenden Kanten verbindet. Die Anzahl der Unterteilungen variiert zwi-schen 1 und 17 und ist die Klasse der Kante. Da die physikalische Struktur durcheinen Graphen dargestellt wird, in dem jede Kante der physikalischen Struktur durcheinen Knoten reprasentiert wird, wird aus dieser Klassifikation der physikalischenKanten eine kontextabhangige Klassifikation von Knoten. Die Relationen des Gra-

Abbildung 5.15: Ein Teil der Struktur B und das zugehorige Gittermodell. Das Gittermodellergibt sich durch die aquidistante Unterteilung der Kanten der physikalischenStruktur und Verbindung der Unterteilungspunkte auf gegenuberliegendenKanten. Die Anzahl der Unterteilungspunkte soll vorhergesagt werden.


FOIL MFOIL GOL. CLAUD . MILP FOSS. FORS SRT CILLG IND. TRIT.

12 21 19 28 32 32 31 24 22 40 37

Tabelle 5.3:Lernraten fur die Mesh-Daten in % (korperweise Cross Validation)

phen beschreiben die Nachbarschaftsbeziehungen zwischenden Kanten der phy-sikalischen Struktur: Die Relationneighbour(x,y)gilt, wenn die Kantenx und yin der physikalischen Struktur adjazent sind.opposite(x,y)gilt, wenn die Kantenx und y der physikalischen Struktur sich gegenuberliegen. Die Beschreibung einesKnotens umfaßt geometrische Eigenschaften (long, usual, short, circuit, halfcircuit,quarter circuit, short for hole, longfor hole, circuit hole, halfcircuit hole, quar-ter circuit hole, notimportant), die Unterstutzung durch benachbarte Kanten (free,onesidefixed, twosidesfixed, fixed) und qualitativ die wirkenden physikalischen Be-lastungen (not loaded, oneside loaded, twoside loaded, contloaded).

Der Mesh-Datensatz existiert in zwei Versionen. Bei den in [19] beschriebenendeterministischenMesh-Daten wurden die Relationenneighbourund oppositedurchjeweils eine Anzahl speziellerer Relationen der Art “benachbart in Raumrichtungxy”ersetzt. Deterministische Relationen werden von GOLEM (s. Abschnitt 6.3) benotigt,das als erstes System auf diese Daten angewendet wurde. Die Festlegung der Raum-richtungen fur ein einzelnes Beispielobjekt ist im Grundebeliebig, was die einheit-liche, sinnvolle Ausrichtung von Trainings- und Testbeispielen erschwert. Die obendargestellte

”indeterministische“ Version der Daten ist deshalb beim Lernen vorzuzie-

hen.

Aus den Beschreibungen der Strukturen ergibt sich die Trainingsmenge. JedeStruktur besitzt zwischen 28 und 96 Knoten, wobeijeder dieser Knoten zusammenmit der Gesamtstruktur ein Beispiel darstellt. Die Trainingsmenge enthalt deshalb ins-gesamt 278 Trainingsbeispiele. Da in praktischen Anwendungen immer alle Knoten ei-ner Struktur zu klassifizieren sind, wurden bei den Experimenten in jedem Durchlauf 4Strukturen zum Lernen und eine zum Testen verwendet (sog. k¨orper- oder strukturwei-se Cross Validation). Da die Klassenverteilung bei den Objekten sehr unterschiedlichist – das ObjektD enthalt beispielsweise fast alle mit 12 markierten Knoten– kommtman nur zu relativ schlechten Lernergebnissen (die Default-Klassifikationsgute be-tragt 26%). Die Tabelle 5.3 zeigt die mit der korperweisenCross Validation ermitteltenGenauigkeiten der Systeme FOIL, MFOIL, GOLEM, und CLAUDIEN aus [14], MILP,FOSSIL, FORS, SRT aus [59], CILLG aus [54] und die Genauigkeiten von INDIGO

und von TRITOP.

In unseren Experimenten zeigte sich, daß INDIGO mit 40% eine hohere Genau-igkeit erreicht als die zum Vergleich herangezogenen ILP-Systeme (max. 32%). DieGrunde fur das gute Ergebnis sind wieder in der Erzeugung von Entscheidungsbaumenund der Erzeugung komplexer Strukturmerkmal. Mit Polynomialattributen erreichtman eine maximale Genauigkeit von 35%. Bei den Mesh-Daten kommen also die bes-sere Generalisierungsfahigkeit der Pfadattribute zum tragen.

5.7. Resumee 97

(wkf(x4),bkf(x4),wrf (x6),wkr(x0),wrr(x6),bkr(x7), lt(x0,x1), lt(x1,x2), . . . , lt(x6,x7))

Abbildung 5.16: Darstellung der Position(0,4,6,6,7,4) bei INDIGO

5.6.4 Schachendspiel

Bei den Chess-Endgame-Daten geht es darum, Regeln zu lernen, mit denen man il-legale Situationen beim Schachendspiel erkennen kann (z. B. [87]). Zugelassen sindKonfigurationen mit einem weißem Konig und Turm und einem schwarzen Konig. Je-de Situation des Endspiels ist ursprunglich als ein 6-Tupel (wkf , wkr, wrf , wrr, bkf,bkr) geben, welches die Spalten und die Zeilen der jeweiligen Figur angibt (white kingfile, white king row, white rook file, white rook row, black king file, black king row).Jede Situation ist entweder als “legal” oder als “illegal” klassifiziert. Das Hintergrund-wissen, welches das Schachbrett beschreibt, enthalt die Relationenadjacent(adj) undlessthan(lt) fur Zeilen und Spalten.

Fur INDIGO wurde eine etwas andere Darstellung der Beispiele gewahlt. Die Dar-stellung der Position(0,4,6,6,7,4) findet sich als Beispiel hierfur in Abb. 5.16. Furdie Zeilen- und Spaltenpositionen der Figuren werden spezielle Pradikate verwendet.Z. B. bedeutetwkf(x4), daß der weiße Konig auf Position 4 steht.

INDIGO erreicht eine Genauigkeit von 98.5% auf einem Datensatz mit 1000 Bei-spielen bei Verwendung von Pfadattributen (10fache Cross Validation). INDIGO ist da-mit etwas schlechter als TRITOP (99.4%) FOIL (99.4%), LINUS (99.7%) und STRUCT

(99.3%). Wir fuhren das etwas schlechtere Ergebnis von INDIGO darauf zuruck, daßman die relativ komplexen Spielsituationen mit Pfadattributen nicht genau genug cha-rakterisieren kann. Bei TRITOP ist dies hingegen moglich.

5.7 Resumee

Die Experimente haben gezeigt, daß INDIGO in zwei sehr wichtigen Anwendungs-gebieten (Mutagenesis, Mesh Design) im Vergleich zu anderen Lernverfahren sehrgute Lernraten aufweist. Dies ist vor allem auf die Transformation der Beispielezuruckzufuhren, die den Einsatz der bekanntermaßen guten Lernverfahren CAL 3 undID3 mit einer ausdrucksstarken Hypothesensprache erlaubt (Konjunktion, Disjunktion,Negation, Mehrfachheiten), die bei vielen Verfahren der ILP nicht gegeben ist.

Enthalten die Daten wenig irrelevante Strukturinformationen, wie das bei denMutagenesis-Daten der Fall ist, so lassen sich mit Polynomialattributen sehr gute Er-gebnisse erzielen. Enthalten die Daten irrelevante Literale, wie beispielsweise teilwei-se die Nachbarschaftsliterale bei den Mesh-Daten, so sind Pfadattribute unter Inkauf-nahme eines erhohten Lernaufwandes besser als Polynomialattribute zum Lernen ge-eignet. Die Verwendung von Normattributen erwies sich experimentell als unpraktika-bel.


Irrelevante Strukturinformationen lassen sich bei Polynomialattributen durchnachtragliche Vereinfachung der Struktur der im Baum verwendeten Attribute errei-chen. Eine Verbesserung der Lernraten wurde allerdings beiden untersuchten Da-tensatzen nicht gefunden. Dies liegt zum Teil daran, daß die irrelevanten Strukturin-formationen schon die Selektion von geeigneten unreduzierten Attributen behindern.Eine bessere Losung des Problems der irrelevanten Strukturmerkmale besteht deshalbdarin, die Merkmale nicht erst nach dem Baumaufbau, sondernschon wahrendessenzu optimieren. Dieses Prinzip ist bei TRITOP realisiert.

In [33] wird ein Ansatz dargestellt, wie man von den Polynomial-, Norm- undPfadattributen zu echten Teilstrukturen, die das betreffende Attribut charakterisieren,kommen kann, indem man die den Attributen zugrundeliegenderelationale Strukturin den Beispielen betrachtet. Diejenigen Relationen und Elementarattribute sind in derTeilstruktur enthalten, deren Relationssymbol zur Bildung des betreffenden Attributsherangezogen wird. Durch dieseRekonstruktionlaßt sich aus dem Entscheidungsbaumein besser interpretierbarer Klassifikator erzeugen. Ein anderer Ansatz zur Erklarungdes Entscheidungsbaums besteht in der Konstruktion von Prototypen, s. Kapitel 8.

INDIGO wurde in einer Diplomarbeit um die Einbeziehung von kontinuierlichenAttributen und Klassenwerten erweitert ([82]). Bei ein- und zweistelligen reellwerti-gen Merkmalen konnen Schwellwertattribute und sog. Mittelwertattribute berechnetwerden. Bei kontinuierlichen Klassenwerten wird der Baum wie bei CART aufgebaut,wobei eine minimale Blattgroße vorgegeben werden muß, um Overfitting zu verhin-dern. Das Verfahren erwies sich als leistungsfahig im Vergleich zu SRT (siehe [59,60]und Abschnitt 6.5).

Eine Erweiterung der kontextabhangigen Klassifikation von Knoten umRekursionerwies sich bei Verwendung von Pfadattributen als moglich([83]). Das Hauptproblembesteht darin, fur Pfade, also Strings von Relationssymbolen zu sagen, was eine Re-kursion uberhaupt bedeuten soll, d. h., wie der Attributwert fur rekursive Attribute zuberechnen ist. Mit den gelernten rekursiven Entscheidungsbaumen war fur die unter-suchten Datensatze keine Verbesserung der Lernraten moglich. Allerdings konnten beiden Mesh-Daten einige auch intuitiv plausible, rekursive Gesetzmaßigkeiten der Datengelernt werden.

Im Vergleich zu LINUS, welches in Abschnitt 6.7 dargestellt wird, ist INDIGO

nicht auf deterministische Relationen im Hintergrundwissen angewiesen, die bei LI-NUS die Transformation in Merkmalsvektoren erst ermoglichen. INDIGO besitzt alsoein großeres Anwendungsfeld. Das bei LINUS verwendete Konzept der Variablentiefeentspricht (ungefahr) dem Konzept der Kontexttiefe bei INDIGO (s. hierzu auch [30]).

Wir wollen die Darstellung von INDIGO an dieser Stelle beschließen und im fol-genden Lernverfahren betrachten, bei denen keine Transformation der relational struk-turierten Beispiele durchgefuhrt wird.

Kapitel 6

Ansatze der Induktiven Logische Programmierung

Die Induktive Logische Programmierung (ILP) ist z. Z. eine der Hauptforschungs-richtungen im Bereich des relationalen maschinellen Lernens – Ubersichten uberdas Gebiet finden sich z. B. in [74,62,77]. Die Induktive Logische Programmierungbeschaftigt sich mit der Erzeugung von logischen Programmen aus Beispieldaten. Indiesem Kapitel sollen einige grundlegende Konzepte und wichtige Verfahren vorge-stellt werden, die zum Verstandnis von TRITOP von Bedeutung sind:

1. die Subsumtion (Abschnitt 6.1.1),2. die generalisierte Subsumtion (Abschnitt 6.1.2),3. die Saturierung (Abschnitt 6.1.2)4. und der LGG nach Plotkin (Abschnitt 6.1.3).

Eine Einfuhrung in die logischen Grundlagen – Syntax, Semantik, Klauseln, Substitu-tionen und Resolution – findet sich in Anhang C.

Die in diesem Kapitel neben den o. g. Techniken dargestellenspeziellen Lernver-fahren (Abschnitt 6.2 ff.) besitzen Gemeinsamkeiten mit TRITOP bezuglich bestimmerAspekte:

1. der Konstruktion von Hypothesenklauseln durch Spezialisierung von allgemein-sten Klauseln (PROGOL ([75,76]), FOIL, STRUCT ([124]), SRT ([59,60]), TILDE

(z. B. [91])),2. der Erzeugung von Hilfspradikaten (STRUCT, CWS ([4])),3. der Verwendung von speziellsten Generalisierungen zur Bestimmung von Hypo-

thesenklauseln (CILGG ([54]), GOLEM ([78,19]), CHILLIN ([134])),4. der

”Object Identity“ (Arbeiten von N. Helft ([43]), J.-U. Kietz([53,54]) und Es-

posito et al. ([22])),5. dem Aufbau eines relationalen Entscheidungsbaums als Hypothese (KATE,

STRUCT, TILDE, SRT)6. und dem nichtmonotonen Klassifikationsverhalten (FOIL, STRUCT, NMLEARN

([17]), CWS).

Die Darstellung der Verfahren dient vor allem zum Vergleichund zur Einschatzung derLeistungsfahigkeit von TRITOP. Der Ansatz LINUS besitzt bezuglich der Transforma-tion der Beispiele Gemeinsamkeiten mit INDIGO und ist aus diesem Grunde ebenfallsrelativ ausfuhrlich dargestellt.

6.1 Grundlegende Techniken der Induktion

Das ILP-Problem derinduktiven Inferenzunterscheidet sich von dem in Kapitel 2 for-mulierten Problem des Begriffslernens und ist nach [77] wiefolgt definiert. Gegeben

100 Kapitel 6. Ansatze der Induktiven Logische Programmierung

ist dasHintergrund- bzw. Vorwissen B(sog. Background Knowledge) und dieEvidenzE = E+∧E−, die aus positiven BeispielenE+ und GegenbeispielenE− besteht. DasHintergrundwissenB enthalt die klassifizierungsrelevante Information zusammen mitevtl. bereichsspezifischem Wissen (Bereichtheorien). Ziel ist es, eine HypotheseH zufinden, mit der die positive Evidenz aus dem Hintergrundwissen folgt. Gesucht ist beider Induktion eine HypotheseH bei gegebenemE undB, wobeiH, E undB den fol-genden Bedingungen genugen sollen:

1. B∧E− 6|= �, d. h., die Negativbeispiele durfen dem Hintergrundwissen nicht wi-dersprechen,

2. B∧H ∧E− 6|= �, d. h., die Hypothese muß zu den Negativbeispielen konsistentsein – dies ist die erste wesentliche Bedingung –,

3. B 6|= E+, d. h., eine Induktion soll notwendig sein, und4. B∧H |= E+, d. h., die Beispiele lassen sich aus Vorwissen und Hypothese vorher-

sagen – dies ist die zweite wesentliche Bedingung.

Neben dieser sog.normalen Semantik, definieren Muggleton und DeRaedt diedefiniteSemantik, bei der alle Formeln inB, H undE = E+∪E− definite Klauseln sind1. Dannkann man die obenstehenden Bedingungen mit dem minimalen Herbrand-ModellMumformulieren zu

1. e∈E− ist falsch inM(B),2. e∈E− ist falsch inM(B∧H),3. e∈E+ ist falsch inM(B),4. e∈E+ ist wahr inM(B∧H).

Diese Bedingungen lassen sich mit Hilfe derSLD-Resolutionuberprufen (vgl. Anhangzur Logik). So ist ein Beispiele∈E+ wahr inM(B∧H), wennB,H,¬e`SLD � gilt,was beispielsweise durch einen PROLOG-Interpreter uberpruft werden kann. Ein Ne-gativbeispiele∈E− ist falsch inM(B∧H), wennB,H,¬e 6`SLD � gilt.

Es sei darauf hingewiesen, daß bei den graph- und produktbasierten Verfah-ren der Beispielgraph die klassifizierungsrelevante Information schon enthalt, s. Ab-schnitt 3. In der ILP ist ein positives bzw. negatives Beispiel oft ein einzelnes Faktump(c1, . . . ,cn) bzw.¬ p(c1, . . . ,cn), welches die Klasse – positiv oder negativ – des Tu-pels von Konstanten(c1, . . . ,cn) ausdruckt2. Die zur Hypothesenbildung heranzuzie-hende Information steckt also großtenteils im Hintergrundwissen, das den Beispielengemeinsam ist, und i. a. auch die Konstanten der Beispiele enthalt. Ohne Hintergrund-wissen konnen die gegebenen Fakten i. a. lediglich

”auswendig“ gelernt werden.

Die bei den graph- und produktbasierten Verfahren betrachtete Klassifikation vonGraphen, bei der die Klasse der

”Wissenbasis“, die durch den Graphen gegeben ist, als

1 Negative Beispiel sind im Gegensatz zur normalen Semantik nicht negiert.2 Bei einigen Ansatzen der ILP konnen als Beispiele auch allgemeine Formeln betrachtet wer-

den, was gegenuber dem in Kapitel 2 dargestellten Problemsdes Begriffslernens eine erwei-terte Aufgabe darstellt.

6.1. Grundlegende Techniken der Induktion 101

Ganzem zugeordnet wird, muß bei den meisten ILP-Verfahren auf die Induktion eineseinstelligen Pradikats abgebildet werden – man vergleiche die ILP-Reprasentation derMutagenesis-Daten und die INDIGO-Reprasentation (Abschnitt 5.6.2).

Beispiel 6.1.1SeiE+ = {p(a), p(b)}, E− = {p(c)} undB = {q(a,d),q(b,d)}. Dannist H = {(p(x)← q(x,y))} eine zulassige Hypothese, die den oben genannten Bedin-gungen genugt. Eine ebenfalls zulassige Hypothese, bei der die positiven Beispiele –genauer: deren Konstantentupel – auswendig gelernt werden, ist H = {p(a), p(b)}.Diese Moglichkeit, einen Klassifikator zu lernen, ist bei den graph- und produktbasier-ten Verfahren nicht gegeben, bei denen grundsatzlich davon ausgegangen wird, daßKnotennamen, als Entsprechung der Konstanten in den Beispielen, keine klassifizie-rungsrelevante Information beinhalten.

Eine Hypothese, die nicht mit dem Gegenbeispielp(c) konsistent ist, istH ={p(x)}. Es muß also nicht unbedingt auf das Hintergrundwissen zur¨uckgegriffen wer-den, um eine Hypothese mit generalisierenden Eigenschaften zu erzeugen. Zur Spezi-fikation von klassifizierungsrelevanten Eigenschaften derallquantifizierten Variablenx ist dies jedoch notwendig. �

6.1.1 Subsumtion

Bei der Suche in Hypothesenraumen, die auch bei TRITOP erfolgt, spielt haufig dieBeziehungC |= C′ (C ist allgemeiner alsC′) fur KlauselnC und C′ eine Rolle,was fur definite Klausel im Prinzip durchC,Skolem(¬C′) `SLD � entschieden wer-den kann, wobei mitC′ = H ← A1, . . . ,An gilt Skolem(¬C′) = ¬H ′ ∧A′1∧ . . .∧A′n.Die Literale ¬H ′,A′1, . . . ,A

′n entstehen aus¬H,A1, . . . ,An durch Ersetzen der vor-

kommenden Variablen durchneue(Skolem-) Konstanten. DaC |= C′ aber nur furgenerative KlauselnC entscheidbar ist, verwendet man haufig dieentscheidbareθ-Subsumtionsbeziehung, die fur eingeschrankte Sprachenauch vollstandig ist (vgl.[92] fur die wichtigsten Satze). Die Subsumtion spielt inmodifizierter Form alsα-Subsumtion auch bei TRITOP fur die Klassifikation von Beispielen eine Rolle, so daßwir sie etwas ausfuhrlicher betrachten wollen.

Definition 6.1.1 (Subsumtion) Es seienC undC′ allgemeine Klauseln. Dann sind diefolgenden Begriffe definiert.

1. Eine KlauselC subsumiert eine KlauselC′ (C 6 C′3), wenn es eine Substitutionθgibt, so daßCθ⊆C′ gilt. Mochte man die Substitutionθ hervorheben, so schreibtman auchC 6θ C′.

2. Es giltC≡C′, wennC 6 C′ undC′ 6 C. Es giltC < C′, wennC 6 C′, aber nichtC′ ≡C gilt.

3 In vielen Arbeiten der ILP bedeutetC 6 C′, daßC vonC′ subsumiert wird. Wir halten unsjedoch an die Konvention von Plotkin, die der Mengeninklusion entspricht. Man beachte,daß spezialisierende Verfahren oft als Top-Down-Verfahren bezeichnet werden und gene-ralisierende Verfahren als Bottom-Up-Verfahren, was der von uns verwendeten Bedeutungvon6 widerspricht.


3. Eine KlauselC heißt reduziert, wenn ausD⊆C undD ≡C die BeziehungD = Cfolgt. �

Die Subsumtion hat die folgenden Eigenschaften.

Proposition 6.1.1 (Eigenschaften der Subsumtion)

1. Gilt C 6 C′, so gilt auchC |= C′.2. Gilt C |= C′, so gilt i. a. nichtC 6 C′.3. IstC nicht selbst-resolvierend undC′ nicht tautologisch, so gilt:C 6 C′ gdw.C |=

C′. �

Die Subsumtion ist zwar entscheidbar, jedoch fur allgemeine Klauseln nur mit expo-nentiellem Aufwand. Kietz beschaftigt sich deshalb in [54] u. a. mit der Frage, furwelche Klassen von Klauseln die Subsumtion effizient berechnet werden kann. Da dieReduktion von Klauseln auf der Subsumtion basiert, ist der Aufwand der Reduktionfur allgemeine Klauseln exponentiell.

Neben dem Vergleich von Hypothesenklauseln wird die Subsumtion in der ILPauch zur Auswertung einer nichtrekursiven HypotheseH bei gegebenem Hintergrund-wissenB verwendet, wenn dieses aus Fakten besteht: StattB,H,¬e `SLD � wirduberpruft, ob es einC∈H gibt, fur dasC6 (e←B) gilt (relative Subsumtion bezuglicheiner durch Fakten gegebenen Hintergrundtheorie, s. nachster Abschnitt).

6.1.2 Hintergrundwissen

Zur Einbeziehung von Hintergrundwissen4 T beim Lernen gibt es zwei prinzipielleMoglichkeiten. Zum einen konnen die Regeln einer Menge von definiten KlauselnTin einem Vorverarbeitungsschritt auf die gegebenen Faktenangewendet werden, unddie so erweiterte Faktenmenge als neues Hintergrundwissenzum Lernen verwendetwerden (extensionaler Gebrauch). BestehtT ohnehin aus Fakten, so spricht man vonextensionalem Hintergrundwissen. Die zweite prinzipielle Moglichkeit besteht in derAnwendung der Regeln wahrend des Lernprozesses (intensionaler Gebrauch), z. B.durch Anwendung der Resolutionsregel. Dies ist auch die Methode der Wahl, wenndas Hintergrundwissen nichtdefinite Hornklauseln enthalt.

Mochte man die oben eingefuhrte Subsumtion5 zusammen mit Hintergrundwissenverwenden, so muß sie geeignet modifiziert werden. Plotkin fuhrte in [86] die relati-ve Subsumtion zu einer HintergrundtheorieT bestehend aus Grundliteralen ein. EineKlauselC subsumiert eine KlauselC′ bezuglich einer HintergrundtheorieT bestehendaus Fakten, wenn giltC 6 C′∪¬T. Plotkin fuhrt in [85] außerdem eine Erweiterungder Subsumtion fur nichtextensionale Theorien ein (zitiert nach [53]). Eine KlauselC

4 Im folgenden heißt das Hintergrundwissen manchmalT und nichtB, um es vom Korpereiner Klausel zu unterscheiden.

5 In dieser Arbeit bedeutet Subsumtion immerθ-Subsumtion. In der Literatur wird der Aus-druck

”Subsumtion“ haufig auch fur die Implikation verwendet.


subsumiert eine KlauselC′ relativ zu einer HintergrundtheorieT, wenn giltC 6 C′′

undT |= C′↔C′′ fur ein zu bestimmendesC′′.Eine abgeschwachte Form der relativen Subsumtion fur Klauseln mit demselben

Kopfpradikat ist die generalisierte Subsumtion von Buntine ([10]), die in modifizierterForm als generalisierteα-Subsumtion auch bei TRITOP Verwendung findet.

Definition 6.1.2 (generalisierte Subsumtion)

1. Eine definite KlauselD = H ← B uberdecktein GrundatomA in einer Herbrand-InterpretationI , wenn es eine Substitutionθ gibt mit Hθ = A undωI (∃ Bθ) = 1.

2. Die KlauselD subsumiert die KlauselC bezuglich eines definiten ProgrammsT –D 4T C –, wenn fur jedes Herbrand-Modell vonT und fur jedes GrundatomA gilt:WennC das AtomA uberdeckt, dann auchD. �

Man beachte, daßωI (∃ Bθ) = 1 dazu aquivalent ist, daß es eine Grundsubstitutionσgibt, mit ωI (Bθσ) = 1, daI ein Herbrand-Modell ist.

Sowohl dieUberdeckungsrelation als auch die generalisierte Subsumtion 4 sindkorrekteAbleitungsrelationen, d. h., es gilt:D 4T C imp. T |= (D→C). Man beachte,daßT |= D→C aquivalent zuT,D |= C ist.

Nach [54] ist4 vollstandig, wennD nicht selbstresolvierend ist,C nicht tautolo-gisch, außerdemT 6|= C, und wenn es keine Klausel inT gibt, die mit den Kopf vonDresolviert. Dann gilt:T |= D→C gdw.D 4T C.

Nach [10] giltD 4T C genau dann, wenn es mit einer skolemisierenden Substituti-on6 θ eine Substitutionσ gibt, so daßT∧Body(C)θ |= ∃Body(D)σθ und Head(D)σ =Head(C).

Kietz ([54]) charakterisiert die generalisierte Subsumtion mit Hilfe der Saturie-rung, die dieUberprufung der generalisierten Subsumtion ohne Betrachtung von Mo-dellen der Theorie erlaubt. Bei TRITOP werden Bereichstheorien ebenfalls durch Sa-turierung der Beispielgraphen berucksichtigt (α-Saturierung).

Definition 6.1.3 (Saturierung, [94])

1. SeienC1 = H1← B1 undC2 = H2← B2 definite Klauseln, und es gelte(← B2) 6θ(← B1). Dann ist die KlauselH1← B1∧H2θ eine elementare Saturierung vonC1

durchC2.2. Fur ein definites ProgrammT ist die Saturierung vonC1 bezuglichT definiert durch

(C1 ↓ T) = (H1← [T]B1), wobei [T]B1 die transitive Hulle (Fixpunkt) bezuglichder elementaren Saturierung mit Klauseln ausT ist. �

EnthaltT nur Fakten, so ist[T]B1 = B1∧T.

6 Eine skolemisierende Substitution ersetzt in einer FormelVariablen durch bisher un-benutzte Konstanten. Skolemisierende Substitutionen werden eigentlich zur Elimina-tion von existenzquantifizierten Variablen bei der Umformung einer Formel in eineerfullungsaquivalente Menge von Klauseln verwendet. Eine existenzquantifizierte Variablewird dort durch einen Term ersetzt, der als Funktionssymboleine sog. Skolemfunktion hat.


Die generalisierte Subsumtion kann mit Hilfe der Saturierung abgepruft werden,die den Vorteil besitzt, daß sie rein syntaktisch definiert ist. D. h., es mussen nicht wiebei der generalisierten Subsumtion Modelle der Theorie betrachtet werden.

Proposition 6.1.2 (generalisierte Subsumtion, [54])Es sei T ein definites Pro-gramm undC1, C2 definite Klauseln.

1. Dann istC1 4T C2 gdw. es gibt eine HornklauselC′ die durch elementare Saturie-rungsschritte ausC2 entsteht und fur dieC1 6 C′ gilt.

2. WennC1 ↓ T existiert, dann gilt:

C1 4T C2 gdw. C1 6 C2 ↓ T . �

Bei TRITOP spielt die generalisierteα-Subsumtion die Rolle eines semantischenModells, mit Hilfe dessen Bereichstheorien in den Lernprozess einbezogen wer-den konnen, und fur das modifizierte Formen der obenstehenden Korrektheits-und Vollstandigkeitsaussagen beweisbar sind. Realisiert wird die generalisierteα-Subsumtion jedoch durch dieα-Saturierung, d. h., die generalisierteα-Subsumtion isteher von theoretischem Interesse.

Wir benotigen das folgende Lemma fur die Saturierung in Abschnitt 6.1.3 zumBeweis der Tatsache, daß der LGG von saturierten Klauseln die speziellste Generali-sierung bezuglich der generalisierten Subsumtion ist.

Lemma 6.1.1 Es giltC1 6 C2 ↓ T gdw.C1 ↓ T 6 C2 ↓ T. �

Beweis. → Angenommen, es gabe ein Literall in C1 ↓ T, das sich nicht inC2 ↓ Teinbetten laßt. Dann muß dieses Literal mitT mit Hilfe einer Menge von LiteralenLim Korper vonC1 abgeleitet worden sein. Da aberC1 6θ C2 ↓ T gilt, findet sichLθin C2 ↓ T, so daß dort die Ableitung vonlθ moglich ware, was im Widerspruch zurAnnahme steht, daßl nicht einbettbar ist.← gilt trivialerweise. �

6.1.3 Plotkins speziellste Generalisierungen

In diesem Abschnitt wird das Verfahren von Plotkin ([84] zurBerechnung von speziell-sten7 Generalisierungen bezuglich der Subsumtion vorgestellt. Die speziellste Genera-lisierung zweier (oder mehrerer) allgemeiner Klauseln istdie am wenigsten generelleGeneralisierung der Klauseln bezuglich der Subsumtion8 und wird deshalb oft auch

”Least General Generalization“ oder kurz LGG genannt. Der LGG ist die wesentli-

che Grundlage fur dieBerechnungvon speziellsten Generalisierungen bezuglich derα-Subsumtion – denαLGGs bei TRITOP.

7 Plotkin verwendet in seiner Arbeit den Begriff”least generalization“. In der ILP hat sich

jedoch”least general generalization“ (LGG) eingeburgert.

8 Beschrankt man sich auf Sprachen, fur die die Subsumtion vollstandig ist, dann hat mangleichzeitig die speziellste Generalisierung bezuglichder Implikation.


Definition 6.1.4 (speziellste Generalisierung)

1. Eine KlauselC ist eine Generalisierung der KlauselnC1 undC2, wennC 6 C1 undC 6 C2 gilt.

2. C ist eine speziellste Generalisierung vonC1 undC2, wenn fur jede weitere Gene-ralisierungC′ die BeziehungC′ 6 C gilt. �

Es gilt die folgende Proposition nach [84].

Proposition 6.1.3 (reduzierte speziellste Generalisierungen) Die reduzierte9 spezi-ellste Generalisierung zweier KlauselnC1 undC2 ist (bis auf Variablenumbenennun-gen) eindeutig bestimmt. �

Das folgende Verfahren nach [62] zur Berechnung des LGGvon Plotkin berech-net eine speziellste,nicht reduzierteGeneralisierung zweier Klauseln. Das Verfahrenwird in einer fur DATALOG-Klauseln eingeschrankten Formbei TRITOP zur Berech-nung des LGGs von Beispielen eingesetzt, aus dem anschließend die speziellstenα-Generalisierungen der Beispiele konstruiert werden.

Algorithmus 6.1.1 (lgg) Es seiV eine Menge von Variablensymbolen, die nicht inden KlauselnC1 undC2 vorkommen. Die Funktiong ordne jedem Paar unterschiedli-cher Terme inC1 undC2 eineindeutig eine Variable ausV zu10. Die Funktion

”lgg“ ist

dann wie folgt definiert.

1. Furu,v∈Vars∪Consgleichen Typs ist

lgg(u,v) =

{u falls u = vg(u,v) sonst

2. Fur Termes= f (s1, . . . ,sn) undt = h(t1, . . . , tm) gleichen Typs ist

lgg(s, t) =

{f (lgg(s1, t1), . . . , lgg(sn, tn)) falls f = hg(s, t) sonst (

”neue Variable“)

3. Fur positive Literalea = p(s1, . . . ,sn) undb = p(t1, . . . , tn) istlgg(a,b) = p(lgg(s1, t1), . . . , lgg(sn, tn))

4. Fur negative Literalea = ¬ p(s1, . . . ,sn) undb = ¬ p(t1, . . . , tn) istlgg(a,b) = ¬ p(lgg(s1, t1), . . . , lgg(sn, tn))

5. Fur Literalea und b mit unterschiedlichen Vorzeichen oder Pradikatsymbol istlgg(a,b) = ↑, d. h. undefiniert.

6. lgg(C1,C2) = {lgg(L1,L2) |L1 ∈C1,L2 ∈C2, lgg(L1,L2) 6= ↑} �

9 Vgl. Definition 6.1.110 I. A. wird man die notwendigen Elemente der MengeV bei der Berechnung des LGG suk-

zessive bestimmen.


Fur eine neue Variablew∈V(lgg(C1,C2)) seiµ1(w) = u undµ2(w) = v, wenng(u,v) =w gilt, d. h.,w ist die Generalisierung vonµ1(w) undµ2(w). Fur alle anderen, d. h.

”al-

ten“, Variablenx gilt µ1(x) = x bzw.µ2(x) = x. Faßt manµ1 bzw.µ2 als Substitutionenauf, so gilt lgg(C1,C2)µ1⊆C1 und lgg(C1,C2)µ2⊆C2 ([84]). Die Substitutionµ1 undµ2 heißen aucheinbettende Substitutionenund sind als Funktionen der Variablenmen-ge des LGG i. a. nicht injektiv wie bei den graph- und produktbasierten Verfahren.

Entsprechend zu den Variableneinbettungenµ1 bzw. µ2 sind dieLiteraleinbettun-genλ1 undλ2 fur l(x1, . . . ,xn)∈ lgg(C1,C2) definiert durch

λ1(l(x1, . . . ,xn)) = l(x1µ1, . . . ,xnµ1)λ2(l(x1, . . . ,xn)) = l(x1µ2, . . . ,xnµ2) .

Da lgg(xiµ1,xiµ2) = xi gilt, ist l = lgg(λ1(l),λ2(l)).Nach [54] hat der lgg-Algorithmus11 zur Berechnung des LGG die folgenden Ei-

genschaften.

Proposition 6.1.4 (Eigenschaften vonlgg)

1. Der lgg-Algorithmus berechnet eine nicht reduzierte speziellste Generalisierungzweier Klauseln.

2. Es gilt lgg(C1,C2)≡ lgg(C2,C1) und lgg(C1, lgg(C2,C3))≡ lgg(lgg(C1,C2),C3).3. Fur die leere Klausel� gilt lgg(C1,�) = �.4. Es gilt lgg(C1,C1)≡C1, abernicht lgg(C1,C1) = C1.5. Die Lange von lgg(C1,C2) ist im schlimmsten Fall‖C1‖ · ‖C2‖. �

Der LGG ist also i. a. nicht reduziert, d. h., es gibt u. U. einekurzere KlauselLmit L ⊂ lgg(C1,C2), fur die L ≡ lgg(C1,C2) gilt. Da die Lange der Generalisierungvonn Klauseln exponentiell inn wachst, ist es meist notwendig, nach jedem dern−1Generalisierungsschritte die entstehende Generalisierung zu reduzieren. Plotkin gibt in[84] einen Algorithmus zur Reduktion von Klauseln an, der exponentiellen Aufwandbesitzt.

Der von TRITOP verwendeteαLGG ist im Vergleich zum LGG nicht eindeutigbestimmt, sondern umfaßt eine ganze Reihe von speziellstenKlauseln bezuglich derα-Subsumtion. Er besitzt den Vorteil, reduziert zu sein und eine kurzere Lange zu be-sitzen als die Ursprungsklauseln, wenn bestimmte zusatzliche Einschrankungen gel-ten.

Ist eine HintergrundtheorieT bestehend aus Grundfakten gegeben, so ist derre-lative LGG bezuglich dieser Theorie nach [86] gegeben alsr lgg(C1,C2) = lgg(C1∪¬T,C2∪¬T). Bezieht man eine durch definite Klauseln gegebene Hintergrundtheoriedurch Saturierung ein, so stellt sich die Frage ob lgg= lgg(C1 ↓ T,C2 ↓ T) wirklich amspeziellsten bezuglich der generalisierten Subsumtion ist, d. h., ob es kein spezielleresC3 gibt, mitC3 4T C1, C3 4T C2 und lgg≺T C3, also n. Proposition 6.1.2 lgg<C3 ↓ T.

11 Das Verfahren liefert nureinenLGG aus einer Menge logisch aquivalenter aber syntaktischunterschiedlicher Formeln.

6.2. Spezialisierungsbasierte Ansatze 107

Angenommen, es gibt so einC3. Mit Lemma 6.1.1 gilt lgg< C3 ↓ T 6 C1 ↓ T undlgg < C3 ↓ T 6 C2 ↓ T. Das ist ein Widerspruch zur Konstruktion des LGG.

Proposition 6.1.5 lgg(C1 ↓T,C2 ↓T) ist die speziellste Generalisierung bezuglich dergeneralisierten Subsumtion, wennC1 ↓ T undC2 ↓ T endlich sind. �

Wie kommen nun zur Darstellung einiger spezieller Lernverfahren.

6.2 Spezialisierungsbasierte Ansatze

Spezialisierungsbasierte oder Top-Down-Ansatze gehen von allgemeinsten Hypothe-senklauseln aus, z. B. von positiven Einerklauseln, und spezialisieren diese durch Hin-zufugen von Literalen, d. h. von Vorbedingungen. In diesemAbschnitt sollen die Sy-stem FOIL ([87]) und PROGOL ([75,76]) als besonders wichtige Stellvertreter fur spe-zialisierungsbasierte Lernverfahren dargestellt werden. Beide Systeme wurden zumexperimentellen Vergleich mit INDIGO bzw. TRITOP herangezogen. Bei TRITOP wer-den die Attribute ebenfalls durch einen spezialisierungsbasierten Ansatz konstruiert,der jedoch zur Vermeidung bestimmter Nachteile bei der Suche mit einem generalisie-rungsbasierten Ansatz gekoppelt ist.

6.2.1 PROGOL

Das Lernproblem von PROGOL entspricht dem oben dargestellten Problem der Induk-tiven Inferenz. Gegeben sind das HintergrundwissenB und die positiven BeispieleE.Gesucht ist eine HypotheseH, fur die giltB∧H |= E, und die zu den negativen Beispie-len konsistent ist. PROGOL betrachtet ein (positives) Beispiel nach dem anderen undversucht aus jedem eineeinzelneKlausel mit generalisierenden Eigenschaften durchSpezialisierung zu konstruieren. Deshalb kann man annehmen, daß es sich beiH undE jeweils um eine einzelne Hornklausel handelt. In der Implementierung PROGOL4.1bestehtB aus PROLOG-Klauseln mit Negation,E aus definiten Klauseln (Positivbei-spiele) und negierten Fakten (Negativbeispiele). Negativbeispiele werden bei PROGOL

verwendet, um zu allgemeine Klauseln zu vermeiden, d. h. zurSteuerung der Suche.Man kannB∧H |= E umschreiben zuB∧¬E |= ¬H, wobei¬E und¬H durch

Skolemisierung erzeugte Konjunktionen von Einerklauselnsind – d. h.,H enthalt Va-riablen, wahrend¬H neue Konstanten als Reprasentanten der Variablen enthalt. Sei¬ ⊥ die evtl. unendliche Konjunktion von allen Grundliteralen, die in allen Modellenvon B∧¬E wahr ist (B ist nicht notwendigerweise definit). Da¬H ebenfalls in je-dem jedem Modell vonB∧¬E wahr ist, mußH einen Teil der Grundliterale von¬ ⊥enthalten, und es gilt

B∧¬E |= ¬ ⊥|= ¬H , (6.1)

und damitH |=⊥ . (6.2)

Die FormelB∧¬E |= ¬H kann man umschreiben zuH |= B→ E, so daß Muggletonvon

”Inverse Entailment“ (Inverser Folgerung) als Lernprinzipspricht.


Furukawa et al. zeigen in [27], daß die Beziehung (6.2) nichtfur allgemeine Klau-selnH undE gilt, wie Muggleton postuliert. Sie geben als hinreichendeBedingung an,daßE ein Faktum ist mit dem Pradikatsymbolh, H eine definite Klausel deren Kopfebenfalls mit dem Pradikatsymbolh beginnt, undB nur definite Klauseln enthalt, derenKorper das Pradikatsymbolh nicht enthalten. Da bei PROGOL4.1 definite Klauseln alsBeispiele zugelassen sind, ist die Implementierung somit nicht korrekt.

Da PROGOL4.1 definite Programme erzeugt, konnen nicht wie mit TRITOP

nichtmonotone Klassifikatoren gelernt werden, was in vielen praktischen Anwen-dungsfallen einen Nachteil darstellt (z. B. Mutagenesis-Pradiktion, Abschnitt 5.6.2).

Muggleton konstruiert in [75] die MengeS(D) der sog.Subsaturanteneiner Klau-selD fur die gilt, daßH |= D nur dann wahr sein kann, wennH eine Klausel inS(D)subsumiert. Insbesondere ist die Menge aller in Frage kommenden Hypothesenklau-selnH die Menge aller Klauseln, die eine KlauselS(⊥) subsumieren.⊥ ist außerdemdie speziellste Hypothesenklausel. In PROGOL4.1 werden aber doch nur solche Klau-seln betrachtet, die⊥ selbst subsumieren (so daß auf die Darstellung der Subsaturantenverzichtet werden soll). Da PROGOL4.1 keine Subsaturanten berechnet, ist es unvoll-standig (vgl. Beispiel 30 in [75]).

BestehtB nur aus Grundatomen, und istE ein Grundatom, so ist⊥ eine definiteKlausel, deren KorperB und deren KopfE entspricht, wobei die Konstanten inB undE durch entsprechende Variablen ersetzt werden.

Da ⊥ i. a. unendlich groß sein kann, wird eine Beschrankung der Variablentiefeals naturliche Zahli bei der Bildung von⊥ vorgegeben. Die Variablentiefe gibt dieminimale Anzahl von Literalen an, uber die eine Variable mit den Kopfvariablen einerKlausel verbunden ist – die Kopfvariablen haben die Tiefe 0.Neben der Variablentiefewird⊥ durch sog.Mode-Deklarationeneingeschrankt, die festlegen, welche Pradikateuberhaupt und wie oft im Korper einer Hypothesenklausel vorkommen durfen, undwelches die Ein- und Ausgabeargumente eines Literals sind.Die solchermaßen ein-geschrankte speziellste Klausel ist⊥i und wird aus der BeziehungB∧ ⊥i ∧¬E `h �

generiert (Beziehung (6.1) umgeformt), wobei`h fur einen Resolutionsbeweis inhSchritten steht. Da man durch die Mode-Deklarationen weiß,welche Arten von Li-teralen uberhaupt in⊥i vorkommen durfen, lassen sich die Literale der Disjunktion⊥i mit Hilfe der Antwortsubstitutionen eines Beweisers bestimmen – dies erlaubt denintensionalen Gebrauchvon Hintergrundwissen.

Bei TRITOP und INDIGO wird auf Mode-Deklarationen ganz verzichtet, da dieVorgabe von nutzlichen Deklarationen, die den Suchraum wirklich einschranken, teil-weise schon Wissen uber die zu lernende Hypothese erfordern, welches man i. a. nichtvoraussetzen kann.

PROGOL durchsucht den Subsumtionsverband mit einemA∗-artigen Algorithmusnach einer KlauselH mit � 6 H 6⊥i mit maximalerOccam Compression, die wiefolgt definiert ist. SeienX und Y Formeln mitY |= X und X ∧Y 6|= �. Seien‖X‖und ‖Y‖ die Anzahl der Bits zur Kodierung. Dann ist die Occam-Kompression vonX bzgl.Y die Differenz‖X‖−‖Y‖. Die optimale Kodierung erfolgt dabei bezuglicheiner Apriori-Wahrscheinlichkeitsverteilung fur logischen Formeln. Da man im allge-

6.2. Spezialisierungsbasierte Ansatze 109

meinen weder diese Verteilung noch eine optimale Kodierungkennt, nimmt man einheuristisches Maß fur‖.‖ – in PROGOL die Anzahl der Atome. TRITOP verwendet zurBeurteilung der Gute einer Attributklausel die Transinformation, die sich schon beipropositionalen Lernverfahren als nutzlich erwiesen hat(s. hierzu [72]), und ein imVergleich zur Occam Compression wesentlich einfacheres Konzept ist.

Die Suche nach einer geeigneten HypothesenklauselH beginnt bei der leerenKlausel �. Durch Anwendung eines Verfeinerungsoperators (Refinement Operator,s. [106,121] und Abschn. 6.4)ρ wird fur die aktuelle KlauselH eine Menge von spe-zielleren bzw. mindestens genauso speziellen Nachfolgernρ(H) erzeugt. Die hinzu-gefugten Literale werden aus den Substitutionenθ mit H 6θ⊥i erzeugt. Seil ein Lite-ral in ⊥i , mit V(l) ⊆ θ(V(H)). Dann ist fur jedes Literall ′ mit l ′θ = l die erweiterteKlauselH ∪{l ′} in ρ(H). Enthaltl eine Variable, die nicht im Bildbereich vonθ liegt,so kann fur sie – wenn die Variable eine Ausgabevariable desLiterals ist – eine neueVariable inl ′ eingefuhrt werden (sog. Splitting). Das Splitting wird auch fur Variablenim Bildbereich vonθ durchgefuhrt. In [75] wird gezeigt, daßρ korrekt, unvollstandigund endlich (aber exponentiell in bestimmten Parametern) ist.

Es werden keine weiteren Verfeinerungen einer KlauselH erzeugt, wennH keinnegatives Beispiel mehr impliziert (das ist die einzige Stelle, an der Negativbeispieleeine Rolle spielen), wenn die Literalanzahl in der Klausel eine bestimmte vom Benut-zer vorgegebene Schwelle erreicht hat, oder wenn das Gutemaß zu schlecht (< 0) ist.Das Gutemaßg ist definiert alsg= p−(c−1+h), wobeip die Anzahl der uberdecktenpositiven Beispiele ist,c die Anzahl der Atome undh die minimale Variablentiefe ei-ner Variablen der Klausel. Die gefundene Klausel wird der Hypothese hinzugefugt,und die von ihr abgedeckten Beispiele aus der Trainingsmenge entfernt (Cover-Set-Algorithmus). Dadurch, daß zur Bildung einer Hypothesenklausel nur jeweils eine Bei-spielklausel betrachtet wird, ist das Verfahren wesentlich starker reihenfolgeabhangigals die Verfahren INDIGO und TRITOP, bei denen jeweils die ganze zur Verfugung ste-hende Trainingsmenge zur Berechnung der Attribute bzw. Testklauseln herangezogenwird.

6.2.2 FOIL

FOIL ([87]) ist eines der bekanntesten Verfahren der ILP und beruht wie PROGOL aufder Spezialisierung einer allgemeinsten Klausel durch Hinzufugen von Literalen zumRumpf der Klausel. Diese Technik findet bei TRITOP ihren Einsatz bei der Bestim-mung von Testklauseln.

Das System FOIL ([87]) lernt ein PROLOG-Programm aus einer Menge von posi-tiven und negativen Beispielen fur die Zielrelation. Die Beispiele sind als mit+ oder− markiertek-Tupel von Konstanten reprasentiert (k ist die Konzeptstelligkeit, d. h.die Stelligkeit des zu lernenden Pradikats). Die Relationen des Hintergrundwissenssind ebenfalls durch die Tupel der Konstanten dargestellt,die in der jeweiligen Rela-tion sind, d. h. extensional. FOIL beginnt mit einer Klausel, die nur aus einem Kopfp(v1, . . . ,vk) fur das zu lernende Konzept besteht, wobei die Variablenvi alle unter-


schiedlich sind. Sollen Argumentstellen identisch belegtsein, so muß dies durch ex-plizite Unifikation im Klauselrumpf spezifiziert werden. Nun werden solange Literaleals Pramisse hinzugefugt, bis ein bestimmtes heuristisches Abbruchkriterium erfulltist. Ein neues Literal muß mindestens eine alte Variable besitzen. Ansonsten bevor-zugt das System jedoch neue Literale mit moglichst vielen neuen Variablen. Da dieLiterale kombinatorisch aus den Pradikatsymbolen, altenund evtl. neuen Variablenerzeugt werden, ist FOIL nicht in gleichem Maße reihenfolgeabhangig wie PROGOL.Allerdings muß eine großere Anzahl von Literalen betrachtet werden.

Die Kandidatenliterale werden wie folgt bewertet. Es seienT+i undT−i die Anzah-

len der durch die zu erweiternde Klausel abgedeckten positiven und negativen Tupel,undT+

i+1 bzw.T−i+1 die entsprechenden Anzahlen nach Hinzufugen eines Kandidaten-literals L. Es ist hier zu beachten, daß jede mogliche Variablenbelegung der Klauselein Tupel bildet, d. h., in denT+

i , T−i , T+i+1 bzw.T−i+1 kann jedes Beispieltupel jeweils

mehrmals vertreten sein.Quinlan definiert die

”Information“ der alten durch die Klausel abgedeckten Teil-

trainingsmengeTi alsI(Ti) =− log2(T

+i /(T+

i +T−i )) (6.3)

und I(Ti+1) entsprechend. Der durch das LiteralL verursachte Informationsgewinnist I(Ti)− I(Ti+1). Da Quinlan als Tupel nicht die ursprunglich betrachtetenBeispiel-Tupel, sondern die verschiedenen Tupel aller moglichen Instantiierungen der Klauselbetrachtet, kann ein Tupel ausTi evtl. durch mehrere Tupel inTi+1 vertreten sein.Quinlan definiert deshalbT++

i als die Anzahl derverschiedenenTupel ausTi , die nochin Ti+1 erweitert vorkommen und setzt

Gain(L) = T++i (I(Ti)− I(Ti+1)) (6.4)

als Bewertung des LiteralsL. Unter den Kandidatenliteralen wird das mit dem bestenGain ausgesucht und dem Klauselkorper hinzugefugt. Alternativen werden spater nichtmehr betrachtet, was eines der Hauptprobleme des Verfahrens darstellt.

Die Definition (6.3) umfaßt offensichtlich einen Teil der schon von der Transin-formation bekannte Entropie-Formel, wobei der Beitrag von− log2(T

−i /(T+

i + T−i ))unberucksichtigt bleibt. Durch das asymmetrische Maß wird dafur gesorgt, daß durchdie verfeinerte Klausel weniger Gegenbeispiele abgedecktwerden als durch die Ur-sprungsklausel. TRITOP verwendet im Gegensatz zu FOIL ein symmetrisches Maß zurBewertung von Literalen, da Attributklauseln nicht im Vornehinein der positiven Klas-se zugeordnet sind.

Im Gegensatz zu PROGOL ist FOIL in der Lage, Klauseln mit einzelnen negiertenLiteralen im Korper zu lernen, die unter der sog. Closed World Assumption (CWA) mitder SLDNF-Resolution abgearbeitet werden (

”Negation as Failure“). Wir nehmen als

Beispiel an, die gelernte Hypothesenklausel seip(x)←¬q(x,y), und die Faktenbasissei ansonsten leer. Mit der Klausel kann beispielsweise dasFaktump(a) fur eine Kon-stantea abgeleitet, d. h. mit SLDNF-Resolution bewiesen werden, daes keine Kon-stanteb gibt, fur dieq(a,b) gilt. Fugt man das Faktumq(a,b) dem Hintergrundwissen

6.3. LGG-basierte Ansatze 111

hinzu, so giltp(a) nicht mehr. Ein solches Klassifikationsverhalten heißtnichtmono-ton. Die normalen Pradikatenlogik erster Ordnung ist demgegenuber monoton, da sichdie Menge der ableitbaren Formeln mit hinzukommendem Wissen grundsatzlichver-großert.

Die Formel(p(x)←¬q(x,y)) = (∀x p(x)←¬∃y q(x,y)) = (p(x)∨∃yq(x,y)) istkeineKlausel. Unter der CWA kann man allerdings einHilfspradikat h(x) einfuhrenund die Klausel durch(p(x)←¬h(x)) zusammen mith(x)← q(x,y) ersetzen12. FOIL

”erfindet“ also eigentlich einfache Hilfspradikate (sog. Predicate Invention). Im Ge-

gensatz zu FOIL baut TRITOPwesentliche komplexere Hilfspradikate auf, die der Kon-junktion von mehreren Literalen entsprechen konnen.

Die Verfeinerung der Klausel stoppt, wenn man mehr Bits zum Kodieren der Klau-sel als fur die abgedeckten Beispiele benotigt, oder wennes keine Literale mit positi-vemGain mehr gibt. Eine Klausel wird dann in die Hypothese aufgenommen, wennihre Genauigkeit, d. h. der Anteil der Positivbeispiele an der Gesamtmenge der durchsie abgedeckten Beispiele, mehr als 85% betragt. Anschließend werden – wie beiPROGOL – die abgedeckten Tupel entfernt und die nachste Klausel gelernt, bis alleTupel abgedeckt sind (Cover-Set-Algorithmus). Nach Abschluß des Lernens werdensolche Literale aus den gelernten Klauseln entfernt, die die Genauigkeit der Klauselnicht verschlechtern. Fur weitere Details wie das Lernen von Rekursionen und An-wendungsbeispiele sei auf den sehr guten Artikel [87] von Quinlan verwiesen.

Es gibt viele Nachfolger von FOIL, die zum einen versuchen, die bekanntenSchwachen des Systems, die durch die Lokalitat der Suchstrategie (Hill Climbing) ent-stehen, zu uberwinden, zum anderen alternative oder erweiterte Aufgabenstellungenabdecken. EineUbersicht findet sich in [62]. Bei TRITOP wurde die vergleichswei-se effiziente Spezialisierung durch lokale Suche zur Vermeidung von lokalen Optimaum die Konstruktion der Beispiele durch Bildung von speziellsten Generalisierungenerganzt.

6.3 LGG-basierte Ansatze

In diesem Abschnitt werden Lernverfahren vorgestellt, diewie TRITOP auf dem Prin-zip der speziellsten Generalisierung beruhen. Hier ist dasVerfahren CILGG ([54]) zunennen, das den LGG fur mit dem Hintergrundwissen saturierte Klauseln bildet. BeimSystem CILGG dient die Einschrankung der Hypothesensprache aufk-lokale Klauselnzur Reduktion des Berechnungsaufwands bei der Reduktion des LGGs bezuglich derSubsumtionsrelation. Beik-lokalen Klauseln kann der Rumpf in unabhangigeloka-le Teile mit max.k Variablen oderk Literalen unterteilt werden, wodurch der Auf-wand fur die Subsumtion polynomiell in der Klausellange und inkk ist. CILGG ist wiePROGOL ein Cover-Set-Verfahren, dadurch sehr reihenfolgeabhangig, und kann keinenichtmonotonen Klassifikatoren lernen.

12 Dies istkeinelogisch aquivalente Umformulierung, da hierfur bei der zweiten Klausel dieAquivalenz stehen mußte.


Beim System GOLEM ([78,19]) sind Beispiele und Hintergrundwissen durch Fak-ten gegeben. GOLEM ist wie PROGOL und CILGG ein Covering-Ansatz. Zur Kon-struktion einer Hypothese wird derRLGG von Paaren zufallig ausgewahlter Beispielegebildet. Negativbeispiele dienen zur Verhinderung vonUbergeneralisierungen. DieHypothesensprache ist aufi j -deterministische Klauseln eingeschrankt, da diese in po-lynomieller Zeit lernbar sind. Der Parameterj ist die maximale Pradikatstelligkeit undi die maximaledeterministischeVariablentiefe, wobei die Literale in der Klausel alsangeordnetbetrachtet werden, d. h., die Variablentiefe wird nur bezuglich der Varia-blen in den Literalenvor dem Literal berechnet, in dem die Variable zum ersten Malauftritt. Bezuglich eines gegebenen Hintergrundwissensist eine Klausel determini-stisch, wenn die Belegung jeder Variablen durch die Belegung der vor ihr auftretendenVariablen eindeutig festgelegt ist. Man beachte, daß dieseEinschrankung keine syn-taktische Beschrankung der Klausel ist, da sie nur bezuglich einer gegebenen Mengevon Beispielen und dem Hintergrundwissen entscheidbar ist. Durch die Beschrankungauf deterministische Daten ist GOLEM in vielen Fallen nicht anwendbar (z. B. Muta-genesis).

Ein System, das ebenfalls mit speziellsten Generalisierungen arbeitet, ist CHIL -LIN ([134]), bei dem LGGs, die negative Beispiele abdecken, entweder durch einzelneLiterale, oder aber durch die Konstruktion eines Hilfspradikates (Predicate Invention)spezialisiert werden. Zur Spezialisierung einer fehlerhaften Klausel werden aus denVariablenbelegungen der Klausel fur die abgedeckten positiven und negativen Bei-spiele neue Beispieltupel gebildet, auf die der Lernalgorithmus rekursiv angewendetwird. Die Argumente des Hilfspradikates werden aus den Variablen der zu spezialisie-renden Klausel minimal so erzeugt, daß sie eine moglichst gute Unterscheidung derpositiven und negativen Beispiel erlauben. Es ist zu beachten, daß keine negierten Li-terale erzeugt werden, d. h. die Klassifikation ist monoton.CHILLIN konstruiert wiealle ubrigen LGG-basierten Verfahren keine Generalisierungen von Gegenbeispielen.

TRITOP unterscheidet sich von den genannten Verfahren vor allem bezuglich derTatsache, das es alle Klassen einheitlich behandelt. Dies bedeutet, daß speziellste Ge-neralisierungen auch von Beispielen gebildet werden, die von CILGG, GOLEM undCHILLIN den Gegenbeispielen zugerechnet werden und fur die deshalb keine Genera-lisierungen gebildet werden.

6.4 Object Identity

Wichtig bei den speziellsten Generalisierungen der graph-bzw. produktbasierten Ver-fahren in Abschnitt 3 ist das von Hayes-Roth formulierte Konzept derObject Integrity,das sich auch bei einigen Ansatzen der Induktiven Logischen Programmierung alsOb-jekt Identitywiederfindet und bei TRITOP in Form derα-Subsumtion vorkommt. DasPrinzip der Objekt Identity entspricht in vielen Anwendungsgebieten der menschlichenIntuition. So soll beispielsweise bei der Vorhersage der Mutagenitat einer chemischerSubstanz (Abschnitt 5.6.2) ein Klassifikator fur nitro- und heteroaromatische Verbin-dungen gelernt werden. In der ursprunglichen Version der Daten werden die Pradikate

6.4. Object Identity 113

bond und atm zur Beschreibung der Substanzen verwendet. Die Beschreibung derSubstanzd191 umfaßt unter anderem die Faktenatm(d191,d1911,c,22,−0.133),atm(d191,d1912,c,22,−0.133), und bond(d191,d1911,d1912,7), welche angeben,daß die Verbindungd191 zwei Atome mit den Namend1911 und d1912 besitzt,fur die eine aromatische Bindung besteht (Verbindungstyp7). Beide Atome sind alsKohlenstoffatome gekennzeichnet (durch die Konstantec), die die elektrische Partial-ladung-0.133besitzen. Der Atomtyp22 besagt, daßd1911 ein bestimmtes aromati-sches C-Atom ist. Fur jede Verbindung in der Trainingsmenge ist deren Klasse, also“active” (mutagen) oder “inactive” (nicht mutagen) angegeben.

Mit Hilfe eines gelernten Klassifikators kann jedes Beispiel der Trainingsmengeund auch bisher ungesehene Objekte als entweder

”active“ oder

”inactive“ klassifi-

ziert werden – in Abhangigkeit von strukturellen Tests, die Atome bzw. Gruppen vonAtomen mit bestimmten Eigenschaften spezifizieren. In allen Systemen der Indukti-ven Logischen Programmierung und auch bei TRITOP wird ein solcher Test durcheine Klausel ausgedruckt, die die Elemente, Bindungen undConstraints fur die elek-trischen Ladungen der Atome spezifiziert. Z. B. besteht die Hypothese, die das SystemPROGOL fur den DatensatzMutagenesis42lernt, nach [111] aus der einzelnen Klausel

active(A)← bond(A,B,C,2), bond(A,D,B,1), atm(A,D,c,21,E) (6.5)

wobei A fur die zu klassifizierenden Substanz steht, undB, C und D drei ihrer Ato-me sind. Die AtomeB und C sind durch eine Doppelbindung verbunden, was durchdie 2 im ersten Literal der Klausel angezeigt wird. Zwischenden AtomenD undB besteht eine Einfachbindung, was im zweiten Literal angegeben wird. Das drit-te Literal druckt aus, daß das AtomC ein Kohlenstoffatom vom Typ 21 mit ei-ner nicht weiter spezifizieren elektrischen LadungE ist. Es ist unmittelbar klar, daßdie AtomeB, C und D bei Auswertung der Klausel mit unterschiedlichen Atom-bezeichnern instantiiert werden mussen. Wenn man beispielsweise die Substanzd191mit der Klausel korrekt als mutagen klassifiziert, so werdendie Literale der Klau-sel mit den Literalenatm(d191,d19118,c,21,-0.002), bond(d191,d19118,d19128,1),bond(d191,d19128,d19129,2) in der Beschreibung unifiziert13. Dadurch ergibt sichdie Variablenbelegung{ A← d191, B← d19128, C← d19129, D← d19118,E←−0.002}, die offenbar eine alphabetische Substitution ist.

Bei den meisten ILP-Systemen und auch bei PROGOL werden die Beispiele mitHilfe von Konstanten reprasentiert, wahrend Klauseln der Hypothese mit Variablenformuliert werden. Da haufig die Horn-Logik als semantisches Modell gewahlt wird,mussen bei der Definition der Semantik nur sog. Herbrand-Modelle betrachtet wer-den, bei denen ein funktionaler Ausdruck – also auch Konstanten – durch sich selbstinterpretiert wird. Dadurch werden Konstanten implizit immer durch unterschiedlicheWerte interpretiert. Dieser implizite Unterschied der Konstanten geht verloren, wenn

13 Da die Beispiele Konstanten besitzen, entspricht die Anwendung der Regel einem Subsum-tionstest. Enthielten die Beispiele Variablen, so ware dies nicht der Fall. Unifizierbarkeit istim Gegensatz zur Subsumtion symmetrisch.


das Lernsystem von den Konstanten in den Beispielen zu den Variablen in der Hypo-these ubergeht –c = d ist fur Konstantenc undd in jedem Falle falsch,x = y kann furVariablenx undy in Abhangigkeit von der Belegung entweder wahr oder falschsein.Man kann aus diesem Grund beispielsweise die obige Klausel auch auf eine Beschrei-bung anwenden, die die chemisch sinnlosen Literaleatm(d191,d19118,c,21,-0.002),bond(d191,d19118,d19118,1), undbond(d191,d19118,d19118,2)enthalt.

Dieses Verhalten kann man modifizieren, indem man Ungleichungen fur die Va-riablen in die Klausel einfuhrt. Diesen Weg beschreitet N.Helft in [43]. Bei der MostSpecific Generalization (MSG) nach Helft wird die Unterschiedlichkeit zweier Varia-blen in einer Klausel durch ein Ungleichheitsliteral ausgedruckt. Die Generalisierungzweier Klauseln kann wie ublich als LGG berechnet werden, wobei sich der Berech-nungsaufwand durch die expliziten Ungleichungen, die ebenfalls generalisiert werdenmussen, erheblich vergroßert.

Bei TRITOP wird die ungleiche Belegung von Variablen durch Verwendungderα-Subsumtion fur die Auswertung der Hypothesenklauseln erreicht. Wie bei Helft ba-siert dieSemantikderα-Subsumtion auf der Verwendung von Ungleichungen, um diedie Klauseln erweitert werden. In deralgorithmischenUmsetzung derα-Subsumtionwird jedoch auf die Ungleichungen verzichtet und statt dessen die auf alphabetischeSubstitutionen eingeschrankteθ-Subsumtion verwendet. Dadurch ergeben sich Vortei-le bezuglich der Entscheidung derα-Subsumtion und der Berechnung vonαLGGs.

J.-U. Kietz untersucht in [53] die Beziehung zwischen dem LGG nach Plotkin bzw.Helft und dem MSG nach Haussler (bzw. Vere und Hayes-Roth). Er zeigt zunachst, daßdie wesentlichen Teile der Beispiel- und Hypothesensprache des Ansatzes von Haus-sler in die Beispiel- und Hypothesensprache von Helft abgebildet werden konnen, d. h.auf Klauseln mit Ungleichungen fur die durch Variablen reprasentierten Elementarob-jekte. Kietz zeigt in Theorem 4 seiner Arbeit, daß der MSG nach Helft spezieller alsdie Komposition aller MSGs nach Haussler (in der Reprasentation von Helft) ist. DieKomplexitat fur die Berechnung aller MSGs nach Haussler aus dem MSG nach Helftist polynomiell in der Lange des MSG nach Helft und in 2d, wobeid die minimaleAnzahl von Objekten in einem der beiden Ausgangsbeispiele ist (Lemma 5).

Die Aufwandsabschatzung von J.-U. Kietz ist ebenfalls fur die Bestimmung derαLGGs bei TRITOP relevant, so daß geeignete Maßnahmen zur Senkung der Komple-xitat notwendig sind.

6.4.1 Refinement und Object Identity

Eine weitere relevante Arbeit zur Object Identity ist [22],in der die Verfeinerung(Refinement) von DATALOG-Klauseln unterθOI-Subsumtion untersucht wird, wo-bei OI fur

”Object Identity“ steht. Ist zum BeispielC = P(x)← Q(x,x),Q(y,a) ei-

ne DATALOG-Klausel mit Variablenx und y und einer Konstantea, so istCOI =P(x)← Q(x,x),Q(y,a),‖x 6= y,x 6= a,y 6= a. Esposito et al. definierenC≤OI D, wennCOI ≤DOI gilt. Im folgenden sollC≤D bedeuten, daßC vonD subsumiertwird, d. h.daßD 6 C gilt. Die in diesem Abschnitt eingefuhrten Begriffe sind ebenfalls fur das

6.4. Object Identity 115

Verstandnis der Verfeinerung bei TRITOP von Bedeutung, da dieθOI-Subsumtion unddie α-Subsumtion in vielen Punkten ubereinstimmen.

Ein spezialisierender (downward)bzw.generalisierender (upward)Verfeinerungs-operatorρ bzw.δ ordnet einer KlauselC eine Mengeρ(C) bzw.δ(C) von Klauseln zu,fur die gilt, daßC jede Klausel inρ(C) subsumiert, bzw. daßC von jeder Klausel inδ(D) subsumiert wird.ρ bzw.δ heißt lokalendlich, wenn die betreffende Menge end-lich und berechenbar ist.ρ bzw. δ heißt proper, wenn keine zuC logisch aquivalenteKlausel inρ(C) bzw. δ(C) enthalten ist.ρ bzw. δ heißtvollstandig, wenn man jedeKlausel, die spezieller bzw. allgemeiner alsC ist, durch mehrmalige Anwendung desbetreffenden Operators erhalt. Besitzt der Operator alledrei Eigenschaften, so heißt derOperatorideal. Gibt es zwischen KlauselnC undD keine KlauselE mit D < E <C, soheißtD unteresCovervonC undC oberes Cover vonD. Eine Folge(Di) von Klauselnheißt unendliche, aufsteigende, d. h. allgemeiner werdende Kette, bisC ohne Cover,wennDi < Di+1 gilt, außerdemDi < C, und wenn es kein unteres CoverA von C gibt,so daßDi ≤ A < C gilt. Entsprechend sind absteigende Ketten definiert.

Man kann zeigen, daß es unterθ-Subsumtion keinen idealen Verfeinerungs-operator geben kann. Dies folgt direkt aus der Existenz von ab- bzw. aufsteigen-den Ketten ohne Cover. Eine unendliche, absteigende Kette ohne Cover bisC =Q(z)← P(z,x1,x2),P(z,x2,x1) (allgemeinste Klausel) ist die Folge(D3n) mit Dn =Q(z)← P(z,x1,x1),P(z,x2,x2),P(z,y1,y2),P(z,y2,y3), . . . ,P(z,yn−1,yn). Eine unend-liche, aufsteigende Kette ohne Cover bisC = Q(z)← P(z,x1,x1) (speziellste Klausel)ist (Fn)n≥2 mit Fn = Q(z)← {P(z,xi,x j) |1≤ i, j ≤ n}. Nach [121] gilt die folgendeProposition

Proposition 6.4.1 ([121]) Gibt es in einem Hypothesenraum KlauselnC undDn mitC > .. . > Dn+1 > Dn > .. . > D2 > D1, und gibt es keinE, so daß fur allen≥ 1 giltC > E ≥ Dn, so gibt es keinen lokal endlichen, vollstandigen und properen Speziali-sierungsoperator. �

Fur Generalisierungsoperatoren gilt entsprechendes. Naturlich kann man vollstandigeSpezialisierungsoperatoren definieren, indem manC systematisch um Literale erwei-tert, Variablen identifiziert oder Variablen durch Konstanten ersetzt. Allerdings enthaltρ(C) dann Klauseln, die bezuglich derθ-Subsumtion aquivalent zuC sind. Man kanneine solche KlauselC′ nichtausρ(C) eliminieren, da mit einem Literall die erweiterteKlauselC∪ l nichtθ-subsumtionsaquivalent zuC′∪ l sein muß. D. h.C′ wird benotigt,um die Vollstandigkeit zu gewahrleisten.

Esposito et al. zeigen die folgende Proposition, derenAquivalent bezuglich derα-Subsumtion in Abschnitt 7.4.1 gezeigt wird.

Proposition 6.4.2 (Prop. 4 in [22]) Unter≤OI gibt es keine unendlichen, absteigen-den bzw. aufsteigenden Ketten. �

Die Autoren Esposito et al. definieren ideale Verfeinerungsoperatoren unter<OI,die es unter< nicht gibt, und zeigen, daß sich die Beziehung<OI auf bestimmte Struk-tureigenschaften der Klauseln auswirkt: die speziellere Klausel ist weniger komplex


als die generellere. Als letztes interessantes Resultat der Arbeit wird gezeigt, daß einidealer (bzw. vollstandiger) Verfeinerungsoperator nicht optimal sein kann. Optimalbedeutet, daß der Operator so definiert ist, daß jede Klausel(bei mehrmaliger Anwen-dung des Operators) nur einmal erzeugt wird.

Der Ansatz von Esposito et al. stellt kein eigenstandiges Lernverfahren dar, sondernbildet einen theoretischen Rahmen fur die Entwicklung vonSystemen, die bestimmteAnnahmen uber geeignete Hypothese machen (Object Identity). Wahrend die ObjektIdentity fur Variablen, die Elementarobjekte von zu klassifizierenden Strukturen dar-stellen, sinnvoll erscheint, gilt dies nicht im gleichen Maße fur beispielsweise reellwer-tige Variablen, die in Constraints fur kontinuierliche Eigenschaften der Strukturobjekteauftreten konnen – ausgedruckt mit Hilfe von ein- oder mehrstelligen Pradikaten, diereellwertige Stellen besitzen, die mit einer reellwertigen Variablen belegt sind. Hier er-scheint es nicht sinnvoll, die moglicherweise gleiche Belegung dieser Variablen durchUngleichungen auszuschließen. Dieα-Subsumtion von TRITOP sieht deshalb eine ge-sonderte Behandlung solcher Variablen vor.

6.5 Relationale Entscheidungsbaumverfahren

Das erste relationale Entscheidungsbaumverfahren uberhaupt ist das Verfahren vonSobig und Sommerfeld, welches in s. Abschnitt 3 beschriebenwurde. Das nachste inzeitlicher Reihenfolge ist KATE von Michel Manago ([66]). KATE basiert auf einer ob-jektorientierten bzw. frameorientierten Darstellung derBeispiele. Ausgehend von vomBenutzer vorgegebenen allgemeinsten Frames wird durch Spezialisierung, d. h. durchVerfolgen von Slots und Einschrankung von Wertebereichen, ein klassendiskriminie-rendes Frame konstruiert und als Attribut in einem ID3-artigen Entscheidungsbaum-verfahren benutzt.

STRUCT ([124]) ist ebenfalls ein spezialisierungsbasierter Ansatz zum Lernen vonrelationalen Entscheidungsbaumen. Der gelernte Entscheidungsbaum ist binar, und je-der Test ist mit einem einzelnen Atom markiert. Jedem Pfad imBaum zu einem Test-oder Blattknoten entspricht eine ganze Klauselp(x1, . . . ,xk)← L1, . . . ,Lm mit einemdurch das zu lernende Konzept bestimmten Kopfp(x1, . . . ,xk), der Variablenx1, . . . ,xkenthalt, und einem KorperL1, . . . ,Lm, in dem die Literale des Pfades zum betrachtetenKnoten negiert oder nichtnegiert auftreten, je nachdem, obder Pfad uber den 0- oder1-Zweig des betreffenden Testknotens lauft.

Ein Trainingsbeispiel ist bei STRUCT ein Tupel (c1, . . . ,ck), fur das entwederp(c1, . . . ,ck) oder¬ p(c1, . . . ,ck) gezeigt werden soll. Der 1-Zweig eines Tests, demdie Klausel p(x1, . . . ,xk) ← L1, . . . ,Lm zugeordnet ist und der mit einem AtomLmarkiert ist, wird bei der Klassifikation dann beschritten,wenn B,(p(x1, . . . ,xk)←L1, . . . ,Lm,L),¬ p(c1, . . . ,ck) `SLD � gilt. Andernfalls wird der 0-Zweig beschritten.Man kann sich die Klassifikation mit STRUCT-Entscheidungsbaumen also so vorstel-len, daß die Testknoten und implizit auch die Blatter ganzeTestklauseln enthalten, wo-bei die Klauseln der Nachfolger eines Testknotens immer einLiteral mehr enthalten.Die Testklauseln sind aus formalen Grundenalle dem Konzeptp zugeordnet, da die

6.5. Relationale Entscheidungsbaumverfahren 117

Klasse erst beim Erreichen eines Blattes festgelegt wird, das mit+ oder−markiert ist.Eine alternative Sichtweise der Abarbeitung besteht darin, daß bei der Klassifikationeine Suche im Baum nach einem Blatt stattfindet, fur dessen KlauselC die BeziehungB,C,¬ p(c1, . . . ,ck) `SLD � gilt.

Der Baum wird mit Hilfe eines Divide-And-Conquer-Verfahrens gelernt. Das At-tributbewertungsmaß zur Selektion der Testliterale bezuglich der jeweiligen Teiltrai-ningsmenge bei Baumaufbau ist im Gegensatz zu dem bei FOIL verwendeten Maßsymmetrisch und zieht die abgedeckten Beispiele in Betracht, d. h. nicht wie FOIL dieverschiedenen Variablenbelegungen.Nachdem Lernen des Baums werden aus direktaufeinanderfolgenden Literalenganz untenim Baum Definitionen von Hilfpradikatengeneriert, die im nachsten Lerndurchlauf als Attribute zum Lernen verwendet werdenkonnen. Ein Testknoten im nachsten Baum, der mit einem solchen Hilfspradikat mar-kiert ist, fuhrt eine Konjunktion von zwei oder (durch Iteration des Verfahrens) vonmehreren Literalen in die zum Testknoten gehorige Testklausel ein. Bezuglich des 0-Zweigs des Testknotens entspricht ein solcher Test dann derNegation einer Konjunk-tion von Literalen, wodurch STRUCT eine großere Ausdruckskraft als FOIL besitzt,welches nur einzelne negierte Literale betrachtet. Unter einem etwas anderen Blick-winkel kann eine solche Konjunktion ein Strukturmerkmal sowohl der Beispiele oderein Strukturmerkmal der Gegenbeispiele sein, d. h., es findet u. U. eine Generalisie-rung von Negativbeispielen statt. STRUCT konstruiert jedoch nur solche zusammen-gesetzten Hilfspradikate, bei denen sich schon die Einzelliterale als diskriminierenderweisen, d. h. als Tests im Baum verwendet werden. Das Verfahren des Baumaufbausund der Attributkonstruktion wird solange wiederholt, biseine vorgegebene maximaleAnzahl von Iterationen uberschritten ist, oder die neu generierten Hilfspradikate nichtmehr verwendet werden. Die Autoren Watanabe und Rendell konnten gegenuber FOIL

keine wesentlichen Vorteile feststellen, was aber m. E. an den betrachteten Anwen-dungsbereichen liegt. Ein wesentliches Problem von STRUCT liegt wie bei FOIL in der

”kurzsichtigen“ Suchstrategie. Bei TRITOP werden geeignete Attribute deshalb auch

durch Bildung von speziellsten Generalisierungen und nicht nur durch Spezialisierungbestimmt.

Nach einem ahnlichen Prinzip wie STRUCT arbeitet das Verfahren SRT ([59,60])welches Regressionsbaume (ohne Hilfspradikate) lernt.Attributliterale werden wiebei CART nach dem Prinzip der Minimierung des mittleren quadratischen Fehlersbestimmt. Der Vorhersagewert in einem Blatt wird als Mittelwert der Klassenwerteder Trainingsbeispiele gebildet14. Ein grundsatzliches Problem besteht darin, daß manimmer einen mittleren quadratischen Fehler von Null erreichen kann, namlich dann,wenn nur noch ein Objekt in jeder Teiltrainingsmenge auftritt. Deshalb wird bei SRT

die Verfeinerung bei einer vorgegebenen minimalen Anzahl von Beispielen pro Blattgestoppt. Damit diese Anzahl nicht vom Benutzer vorgegebenwerden muß, wird furverschieden Blattgroßen ein Entscheidungsbaum generiert, und der Beste nach demPrinzip derMinimum Description Lengthausgewahlt. Als Besonderheit werden bei

14 Ein Verfahren der ILP, welches lineare Regressionen lernt,ist FORS ([52]).


der rekursiven Verfeinerung solche Beispiele als”Außenseiter“ eliminiert, die eine zu

kleine strukturelleAhnlichkeit zu den restlichen Beispielen einer Teiltrainingsmengebesitzen. Nach einem ahnlichen Grundprinzip wie SRT und STRUCT arbeitet das Sy-stem TILDE (z. B. [91]), auf das wir aus diesem Grund nicht weiter eingehen wollen.

Vom Entscheidungsbaumverfahren von Sobig und Sommerfeld unterscheidet sichTRITOP u. a. bezuglich der verwendeten Attribute, der Attributbewertung und der At-tributgenerierung. Bei beiden Ansatzen kann jedoch im Gegensatz zu den hier darge-stellten rein logischen Entscheidungsbaumansatzen dieMultiplizitat einer Teststrukturbeim Baumaufbau berucksichtigt werden, indem dieAnzahlder verschiedenen Sub-stitutionen bzw. Monomorphismen berechnet wird, mit dem die Teststruktur in das zuklassifizierende Beispiel eingebettet werden kann. TRITOP ist zusatzlich wie logischeVerfahren in der Lage,binare Entscheidungsbaumezu erzeugen, bei denen nur die Exi-stenz einer Substitution uberpruft wird, die die Teststruktur in das zu klassifizierendeBeispiel einbettet.

Durch die Gleichbehandlung aller Klassen ist TRITOP wie STRUCT, SRT und TIL -DE in der Lage,explizite Regeln fur jede gegebene Klassezu erzeugen. GegenuberSTRUCT, SRT und TILDE, bei denen bei der Auswertung eines Testknotens, der miteinem Literal markiert ist, auch bestimmte Literale in Testknotenoberhalbdes aktuel-len Tests berucksichtigt werden mussen, enthalt eine Testklausel, mit der bei TRITOP

ein Blatt markiert ist, die gesamte zur Auswertung des Attributs relevante Informati-on, was zu leichter interpretierbaren Baumen fuhrt. Nur STRUCT ist wie TRITOP zurKonstruktionkomplexer Hilfspradikatefahig, wofur jedoch ein sehr aufwendiges Ver-fahren eingesetzt wird, bei dem eine ganze Reihe von Klassifikatoren gebildet werdenmussen. Bei TRITOP genugt der Aufbau eines einzigen Entscheidungsbaums. SRT undTILDE konnen wie FOIL nur die Negation von einzelnen Literalen berucksichtigen.

6.6 Nichtmonotone Klassifikation

Wie wir gesehen haben, weisen schon Verfahren wie FOIL und STRUCT ein nichtmo-notones Klassifikationsverhalten auf. In diesem Abschnittsollen einige Arbeiten be-trachtet werden, die sich diesem Thema explizit widmen. Inmonotoner Logikkann dieSpezialisierung einer Hypothese durch Streichen einer Klausel (z. B. PDS, [106]) oderdurch Hinzufugen eines (positiven oder negativen) Literals zum Korper einer Klauselerfolgen (MODELER, [127]). Mit der spezialisierten Hypothese kann nun weniger ab-geleitet werden. Bain und Muggleton zeigen in [4], daß das in[127] beschriebene Ver-fahren MODELER zur Spezialisierung in monotoner Logik – genauso wie ihr eigenerAnsatz zur Berechnung von sog.

”Most General Correct Specializations” (MGCS) – zu

unbefriedigenden Ergebnissen fuhren. Bei MODELER wird die Hypothese zu speziell,da der Wahrheitswert der eingefuhrtenAusnahmepradikate fur neue Beispiele unbe-kannt ist. Die MGCS fuhrt zu einer unerwunscht hohen Anzahl von ungeeigneten Spe-zialisierungen, da keine neuen Pradikate eingefuhrt unddefiniert werden. Die Autorenschlagen deshalb als nichtmonotone Alternative zur MGCS die Closed World Spe-cializationvor, bei der fur Negativbeispiele, die mit der Hypothese f¨alschlicherweise

6.7. LINUS 119

bewiesen werden konnen, die Hypothese blockierende Ausnahmepradikate eingefuhrtwerden, die so gewahlt werden, daß sie gerade fur die betreffenden Gegenbeispielegelten. Diese Ausnahmepradikate sind nicht von strukturellen Eigenschaften der Ge-genbeispiele abhangig, sondern von ihren Konstanten, d. h., es findet keine bzw. kaumeine Generalisierung statt – die Gegenbeispiele werden lediglich auswendig gelernt (s.Beispiel am Anfang des Kapitels). Der Ansatz ist deshalb unbefriedigend.

Interessanter ist das Verfahren NMLEARN ([17]), bei dem explizite Regeln fur dasnegierte Pradikat gelernt werden konnen. Der Algorithmus versucht zunachst, positiveRegeln mit einem nicht weiter spezifizierten

”klassischen“ Lernverfahren zu lernen.

Fur jede Regel der erzeugten Hypothese werden die von ihr abgedeckten Negativ-beispiele betrachtet und mit dem klassischen Lernverfahren aus dieser neuen Trai-ningsmenge

”negative“ Regeln erzeugt. Die negativen Regeln werden Ausnahmen der

jeweiligen positive Regel. Dazu wird eine Regelordnung (Priority Links) definiert, sodaß durch rekursive Anwendung des Lernverfahrens geschachtelte Ausnahmen gelerntwerden konnen. Dadurch, daß mit dem Lernen von positiven Regeln begonnen wird,werden diese gegenuber den negativen Regeln bevorzugt. Ein symmetrischer Ansatzerscheint geeigneter, da hier keine so starken Annahmen uber das zu lernende Konzeptgemacht werden. Da NMLEARN

”generisch“ ist, d. h. mit einem klassischen Lernver-

fahren instantiiert werden muß, bleiben die Autoren den Nachweise der Praktikabilitatihres Ansatzes schuldig.

Binare, von TRITOP erzeugte Entscheidungsbaume, die nicht die Multipli-zitat einer Teststruktur berucksichtigen, konnen in nichtdefinite logische Program-me ubersetzt werden konnen, dienichtmonotone Klassifikatorendarstellen (Ab-schnitt 7.8). Im Gegensatz zu nichtmonotonen Ansatzen wieNMLEARN und der CWS

wird nicht zwischen einer positiven bzw. negativen Klasse unterschieden, sondern eswerden alle Klassen (u. U. mehr als zwei) gleichwertig behandelt. Das bedeutet, daßkomplexe Generalisierungen – insbesondereαLGGs – auch von solchen Beispielengebildet und beim Baumaufbau verwendet werden, die von logischen Verfahren alsGegenbeispiele betrachtet werden. Es gibt in der ILP kein Verfahren, das LGGs vonGegenbeispielen bildet.

6.7 L INUS

Zuletzt wollen wir auf LINUS ([63,62]) eingehen, bei dem die Trainingsbeispiele wiebei CRS und INDIGO in Merkmalsvektoren umgewandelt werden. In der einfach-sten Version des Verfahrens konnen nur sog. Constrained Clauses gelernt werden, inderen Korper nur die Kopfvariablen auftreten. Im folgenden soll angenommen wer-den, daß die zu generierende Hypothesenklausel den Kopfp(x1, . . . ,xn) mit Variablenx1, . . . ,xn besitzt. Zur Transformation eines Beispielsp(c1, . . . ,cn) oder¬ p(c1, . . . ,cn)werden Literale als binarwertige Funktionen der klassifizierten Objekte betrachtet. Be-findet sich im Hintergrundwissen z. B. das Faktumq(ci1, . . . ,cim) mit {ci1, . . . ,cim} ⊆{c1, . . . ,cn}, so wird die Attributfunktionq(xi1, . . . ,xim) eingefuhrt und dem Beispiel


der Attributwert 1 zugeordnet. Gilt fur ein anderes Beispiel (¬)p(c′1, . . . ,c′n) das Fak-

tum nicht, d. h., kommtq(c′i1, . . . ,c′im) nicht im Hintergrundwissen vor, so bekommt

dieses Beispiel den Attributwert 0. Nach Transformation der Beispiele wird ein pro-positionales Regellernverfahren angewendet. Das Regellernverfahren identifiziert dierelevanten Attribute, so daß unter Berucksichtigung des Klauselkopfsp(x1, . . . ,xn) ei-ne Rucktransformation der gelernten Hypothese in eine Menge von logischen Klauselnmoglich ist.

Der Ansatz laßt sich aufi-deterministische Klauseln erweitern, wobeii eine maxi-male vorgegebene deterministische Variablentiefe (s. o) ist. Der Attributvektor enthaltdann Literale bis zur Variablentiefei, wobei die Literale der Tiefe ihrer Variablen ent-sprechend angeordnet werden. Probleme bei der Bestimmung des Attributwerts be-reiten nun solche Literale, die neue Variablen einfuhren,welche also noch nicht imKopf der Klausel auftreten. Da das Hintergrundwissen deterministisch ist, ist jedochdie Variablenbelegung fur neue Variablen eindeutig, d. h., es gibt genau eine erweiterteVariablenbelegung oder keine. Der Wert der Attributfunktionen fur ein Beispiel wirdbezuglich dieser eindeutig bestimmten Variablenbelegung festgestellt, die naturlich furverschiedene Beispiele unterschiedlich ist. DINUS ist eine rekursive Variante von LI-NUS, auf die wir hier nicht eingehen wollen, da sich beim Erlernen von Rekursioneneigene Fragestellungen ergeben, die den Rahmen dieser Arbeit sprengen wurden. Wiebei GOLEM behindert die Forderung nach deterministischem Hintergrundwissen diepraktische Anwendbarkeit des Verfahrens.

Kapitel 7

TRITOP

In diesem Kapitel wird das Lernverfahren TRITOP vorgestellt, bei dem die Beispielenicht wie bei CRS und INDIGO in Merkmalsvektoren transformiert, sondern mit Hilfevon Teststrukturen klassifiziert werden, die in einem Entscheidungsbaum angeordnetsind. Der Attributwert einer Teststruktur wird dadurch bestimmt, ob bzw. wie oft diesein dem zu klassifizierenden Objekt als Teilstruktur vorkommt.

Die direkte Verwendung von Teststrukturen fuhrt im Vergleich zu INDIGO einer-seits zu besser verstandlichen Hypothesen, andererseitskann irrelevante und redundan-te strukturelle Information (Literale) schon beim Generieren der Teststrukturen elimi-niert werden. Dies ist bei INDIGO bzw. CRS nicht ohne weiteres moglich, da dort dieTransformation dem Lernen vorausgeht.

TRITOP verwendet eine einheitlicheKlauseldarstellungfur Teststrukturen undBeispiele. Die Klassifikation beruht auf dem Prinzip derα-SubsumtionzwischenAttribut- und Beispielklauseln, die einer monomorphen Einbettung der Attributstruk-turen in die zu klassifizierenden Beispielstrukturen entspricht (vgl. Def. 5.1.1). Dieα-Subsumtion basiert aufα-Substitutionen, die auf einem bestimmten Teil der Variablen,den sog.Knotenvariablender einzubettenden Klausel alphabetisch sind. WesentlicheVorteile derα-Subsumtion gegenuber derθ-Subsumtion sind:

– Unter bestimmten Voraussetzungen ist die generelle Klausel strukturell einfacherals die speziellere Klausel (s. Abschnitt 7.4).

– Der Suchraum bei der Hypothesenbildung fur eine gegebene Menge von Bei-spielen, d. h. die Menge aller sinnvollen Hypothesenklauseln bzw. Entschei-dungsbaume, ist endlich (s. Abschnitt 7.4).

– Es existieren ideale Verfeinerungsoperatoren1 (z. B. ρi in Abschnitt 7.4).

TRITOP besitzt im Hinblick auf dieα-Subsumtion Gemeinsamkeiten mit den Arbeitenvon Vere, Hayes-Roth und Haussler (Abschnitt 3) bzw. den Arbeiten von Helft undinbesondere von Esposito et al. (Object Identity, Abschnitt 6.4). Neu im Vergleich zurθOI-Subsumtion ist die gesonderte Behandlung von Variablen, fur die die Annahme derBelegung mit notwendigerweise verschiedenen Werten nichtsinnvoll ist, beispielswei-se reellwertige Variablen. Dies erleichtert die Behandlung von Constraints.

Die Konstruktion des Entscheidungsbaum erfolgt bei TRITOP mit Hilfe eines re-kursiven Top-Down-Verfahrens. D. h., die gegebene Trainingsmenge wird mit Hilfegeeignet zu konstruierender Strukturattribute rekursiv unterteilt, bis (ausreichend) las-senreine Teilmengen entstehen. Der interessante Punkt beim Baumaufbau ist die Kon-struktion der Attribute, die bei TRITOP anders als bei propositionalen Algorithmen

1 Verfeinerungsoperatoren und Idealitat sind in Abschnitt6.4 definiert.

122 Kapitel 7. TRITOP

+ + - -E E E E

- +E -E E +E 8765

1 2 3 4

1 1

11 1 1

2 2

22 2 2

1 2 1 2

Abbildung 7.1: Die TrainingsmengeS

nicht vorgeben sind. Zur Konstruktion der Testklauseln werden die folgenden Lern-techniken eingesetzt:

1. Spezialisierungvon Einerklauseln durch Hinzufugen von Vorbedingungen zumRumpf der Klausel: Der Spezialisierungsoperatorρ+ wird in Abschnitt 7.4 defi-niert.

2. Spezialisierung von Klauseln durchConstraints: Der Constraintoperatorρc wird inAbschnitt 7.7 dargestellt.

3. Berechnung vonBeispielteilenals Teilstrukturen der Beispiele zur Aufwandsre-duktion bei der Generalisierung durch die Bildung vonαLGGs und die Anwen-dung vonρ− (s. Abschnitt 7.5).

4. Bestimmung derspeziellsten Generalisierungvon Klauseln bezuglich derα-Subsumtion, denαLGGs: DerαLGG-Algorithmus wird in Abschnitt 7.5.2 vor-gestellt.

5. Generalisierungvon Attributklauseln durch Loschen von Vorbedingungen: DerGeneralisierungsoperatorρ− wird in Abschnitt 7.5.3 definiert.

Dieses Kapitel ist wie folgt gegliedert. In den Abschnitten7.1 und 7.2 wird aufdie Reprasentation der Beispiele und auf grundsatzlicheFragen der Klassifikation ein-gegangen. In Abschnitt 7.3 wird der Baumaufbau dargestellt. Die Attributkonstrukti-on durch Spezialisierung (ρ+) bzw. Generalisierung (ρ− und αlgg) wird in den Ab-schnitten 7.4 bzw. 7.5 vorgestellt. In Abschnitt 7.4 werdenaußerdem Eigenschaf-ten derα-Subsumtion betrachtet, und der ideale Verfeinerungsoperator ρi definiert.Der Abschnitt 7.6 widmet sich der Einbeziehung von Bereichstheorien. Die Verwen-dung von Constraints wird in Abschnitt 7.7 diskutiert. Die Transformation von Ent-scheidungsbaumen in logische Programme wird in Abschnitt7.8 untersucht. In Ab-schnitt 7.9 wird ein Korrektheits- und Vollstandigkeitsbegriff fur Generalisierungs-beziehungen entwickelt, der an dieα-Subsumtion angepaßt ist. Eine experimentelleEvaluation des Verfahrens erfolgt in Abschnitt 7.10. Ein Resumee findet sich in Ab-schnitt 7.11.

7.1. Reprasentation der Beispiele 123

7.1 Reprasentation der Beispiele

Im folgenden soll die in Abbildung 7.1 dargestellte kleine Trainingsmenge betrachtetwerden, die Konfigurationen der Blocks World enthalt. Die Trainingsmenge enthaltacht Beispiele, wobei ein Beispiel aus einem klassifizierten Paar von Blocken (mar-kiert mit 1 bzw. 2) zusammen mit der jeweiligen Konfigurationbesteht. Ein Paar sollgenau dann die Klasse

”+“ besitzen, wenn das Paar die Basis einer Durchfahrt eines

Tores bildet, andernfalls die Klasse”−“, d. h., es soll das Konzept

”Tordurchfahrt“ als

zweistellige Relation gelernt werden.Zur Reprasentation der Beispiele durch Strukturen werdendie Relationens fur

“supports”, t fur “is directly left of and touches” undd fur “is directly left of anddoes not touch” verwendet. Die Graphen der BeispieleE1 undE2 finden sich in Ab-bildung 7.2. Man beachte, daß sich die Verwendung der Relationen im Vergleich zuKapitel 4 leicht unterscheidet, um den LGG der Beispiele handhabbar klein zu halten:Die Relationd wird im Sinne von

”links von“ verwendet, und es gibt eine neue Relati-

on t (touches) mit der Bedeutung”beruhrt (von links)“. Aus diesem Grunde wurde auf

die Verwendung von Elementarattributen (b und p) ganz verzichtet.Das System TRITOP verwendet im Gegensatz zu INDIGO eine Klauseldarstellung

sowohl fur die Attribute als auch fur die Beispiele. Eine INDIGO-StrukturG = (x,S)wird bei TRITOP als definite Klausel(class(x)← S) dargestellt. Im Gegensatz zurDarstellung von TRITOP in [35] und [34] wird der Klassenwert nicht in die syn-taktische Reprasentation des Beispiels aufgenommen, d. h., ein klassifiziertes Bei-spiel ist ein Paar((class(x)← S),c) mit einem Klassenwertc. Die Klauseldarstellung(class(x)← S) zeichnet lediglich die klassifizierten Objektex = x1, . . . ,xk aus und istmit der Verwendung von Subsumtion und speziellsten Generalisierungen konform, be-sitzt jedochkeineintuitive Lesart als Regel. Die Ableitbarkeit vonclass-Fakten ist alsoeigentlich nicht von Interesse.KlassifizierteBeispiele(class(x)←S,c) konnen jedoch

d t

s s s

s

s s

s s

s s

E1

E2

x1 x2 x4

x3

x5 x’6

x’3 x’5

x’1 x’2 x’4d d

t

class(x1,x2) ← d(x1,x2), t(x2,x4),s(x1,x3),s(x2,x3),s(x4,x3),s(x3,x5)class(x′1,x

′2) ← d(x′1,x

′2),d(x′2,x

′4),s(x

′1,x′3),s(x

′2,x′3),s(x

′2,x′5),s(x

′4,x′5),

t(x′3,x′5),s(x

′3,x′6),s(x

′5,x′6)

Abbildung 7.2: Graphen und Klauselrepr. fur die BeispieleE1 undE2 aus Abb. 7.1


als elementare Klassifikationsregeln(class(x,c)← S) aufgefaßt werden, wenn manden Klauselkopf um eine Stelle erweitert, die mit der Klassebesetzt ist. Im Gegen-satz zu INDIGO sind mehr als zweistellige Relationen zur Beschreibung derStrukturund bei der Klassifikation zugelassen. Fur die BeispieleE1 undE2 erhalt man die inAbbildung 7.2 dargestellten Klauseln. Die Knoten der Strukturen werden dabei durchVariablen der besonderenSortev dargestellt. Klauseln, die neben solchen Knotenva-riablen auch Konstanten und Variablen (bei Attributklauseln) aus anderen Sorten ent-halten, also beispielsweise reelle Zahlen als Argumente von Pradikaten, werden erst inAbschnitt 7.7 betrachtet.

7.2 α-Subsumtion und Klassifikation

Beispiel 7.2.1 (Klassifikation) Zur Induktion einer Hypothese extrahiert das SystemTRITOP aus der gegebenen TrainingsmengeTestklauselnund erzeugt mit diesen einenrelationalen Entscheidungsbaum. Die Abbildung 7.3 zeigt als Beispiel einen binaren,relationalen Entscheidungsbaum, der die gegebene Trainingsmenge in Abb. 7.1 richtigklassifiziert, indem er die Existenz bestimmer Teilstrukturen im zu klassifizierendenBeispiel uberpruft. Ein Beispiel, z. B. das Paar(x1,x2) aus der KlauselE1, wird wiefolgt klassifiziert: Das Paar(x1,x2) wird der Klasse+ zugeordnet, da das erste Attribut

A1 = (class(y1,y2)← d(y1,y2))

im Entscheidungsbaum (7.3) zwar fur(x1,x2) in E1 vorkommt – es giltd(x1,x2) –, daszweite Attribut

A2 = (class(y1,y2)← s(y4,y1),s(y4,y2))

ist hingegen nicht geeignet einzubetten. Die AttributklauselA1 α-subsumiertdie Bei-spielklauselE1: Es gilt A1 6α

θ E1, d. h., A1 kommt als Teilstruktur vonE1 mit dereinbettenden alphabetischen Substitutionθ = {y1← x1,y2← x2} vor2. Im GegensatzzuA1 gilt die RelationA2 6α E2 nicht, weil es keine Substitutionθ′ mit A2θ′⊆E1 gibt.Deshalb wirdE1 mit Hilfe des mit+ markierten Blattes im Baum klassifizert. Auf dieErzeugung vonA1 undA2 aus der in Abb. 7.1 gegebenen Trainingsmenge wird in denAbschnitten 7.3, 7.4 und 7.5 eingegangen. �

Die Unterschiedlichkeit der Belegung fur die Variablen inA1 laßt sich modellieren,indem man der KlauselA1 die speziellere Klausel

Φ(A1) = (class(y1,y2)← d(y1,y2),y1 6.= y2,y2 6

.= y1)

zuordnet, die durch ihre ubliche logische Semantik die eigentliche Bedeutung des At-tributs A1 definiert. Die Bedeutung der Gleichheit

.= bzw. der Ungleichheit6

.= muß

2 Wir schreibenA1 6α E1, wenn es irgendeine Substitution gibt, fur dieA1 die KlauselE1

α-subsumiert, undA1 6αθ E1, um auf ein bestimmtesθ Bezug zu nehmen, oder um ein ge-

eignetesθ zu definieren, was im folgenden Text verwendet werden soll.A1 6 E1 bedeutet,daßA1 die KlauselE1 θ-subsumiert, wobei hierθ die Art der Subsumtion kennzeichnet.

7.2. α-Subsumtion und Klassifikation 125

(class(y1,y2)← d(y1,y2)) :0→−1→ (class(y1,y2)← s(y4,y1),s(y4,y2)) :

0→+1→−

Abbildung 7.3: Ein klassentrennender Baum fur die Trainingsmenge in Abbildung 7.1

entweder in einer Gleichheitstheorie festgelegt werden, oder aber es werden bei derDefinition der Semantik nur solche Interpretationen zugelassen, die die Gleichheit als(semantische) Gleichheit interpretieren.

Definition 7.2.1 (Φ) Fur die KlauselC = H← B ist

Φ(C) = H← (B,∆(C))

definiert mit den Ungleichungen

∆(C) = {x 6.= y|x,y∈V(C),α(x) = α(y) = v,x 6= y} . �

In der Definition von∆(C) stehtx 6= y fur die syntaktische Ungleichheit vonx undy, wahrendx 6

.= y ein Atom der logischen Sprache ist. Um den Bereich der definiten

Klauseln nicht zu verlassen, wenn wir die Ungleichungen zu einer Klausel hinzufugen,mussen wir annehmen, daßx 6

.= yeineatomareFormel ist und nicht ein negiertes Atom.

Die α-Subsumtion ist mitΦ wie folgt definiert.

Definition 7.2.2 (α-Subsumtion) C1 6α C2 gdw.Φ(C1) 6 Φ(C2). �

Die Verwendung vonΦ und die Definition derα-Subsumtion entspricht der von Espo-sito et al. in [22] eingefuhrtenθOI-Subsumtion (s. Abschnitt 6.4). Enthalt eine KlauselC nur Knotenvariablen, so giltΦ(C) = COI. Im Gegensatz zur Arbeit von Esposito etal. werden bei derα-Subsumtion Variablen und Konstanten aus vonv verschiedenenSorten von der Bildung von Ungleichungen ausgenommen, da f¨ur solche Variablen,z. B. x undy, ein Ungleichheitsliteralx 6

.= y einer Gleichsetzung vonx undy im Cons-

traintteil widersprechen wurde. In Abschnitt 7.7 wird dieα-Subsumtion auf Klauselnmit Constraints erweitert.

Die EntscheidungC1 6α C2 kann ohne Erweiterung der beteiligten Formeln umdie Ungleichungen getroffen werden, indem man nurα-Substitutionen bei derθ-Subsumtion zulaßt.

Definition 7.2.3 (α-Substitution) Eine Substitutionθ heißtα-Substitution bezuglicheiner VariablenmengeV, wenn furx,y∈V mit α(x) = α(y) = v die Beziehungθ(x) 6=θ(y) gilt. �


Betrachtet man Klauseln, die nur Knotenvariablen enthalten, so ist eineα-Substitutioneinfach eine alphabetische Substitution im herkommlichen Sinne. Bei Klauseln mitVariablen aus vonv verschiedenen Sorten muß eineα-Substitution jedoch auf diesenVariablen nicht alphabetisch sein (s. Abschnitt 7.7).

Es gilt der folgende Satz, der besagt, daß dieα-Subsumtion der ublichen Subsum-tion bei Einschrankung aufα-Substitutionen entspricht.

Satz 7.2.1Es seienC1 undC2 Klauseln. Dann gilt:

1. C1 6αθ C2 impliziertC1 6θ C2 undθ ist eineα-Substitution.

2. WennC1 6θ C2 fur eineα-Substitutionθ gilt, dann gilt auchC1 6αθ C2. �

Beweis von Satz 7.2.1.1.Es gelteC1 6αθ C2, d. h., Φ(C1) 6θ Φ(C2). θ ist eineα-

Substitution, da sonst eine UngleichungU = (x 6.= y) in Φ(C1) auf eine Ungleichung

Uθ = (z 6.= z) abgebildet wurde, die man inΦ(C2) nicht findet. Also giltC1 6θ C2 mit

einerα-Substitutionθ.Beweis von Satz 7.2.1.2.Es gelteC1 6θ C2 fur eineα-Substitutionθ. Sei x 6

.= y ei-

ne Ungleichung ausΦ(C1). Dann istxθ 6 .= yθ eine Ungleichung vonΦ(C2), also giltΦ(C1) 6θ Φ(C2), d. h.C1 6α

θ C2, da∆(C1) 6αθ ∆(C2) ist. �

7.2.1 Attributauswertungen

Die Attributauswertungξα baut auf derα-Subsumtion auf und gibt an, wie oft eineKlausel als Teilstruktur in einer anderen vorkommt. Die alternative Attributauswertungξα(0,1)

pruft das Vorkommen einer Teststruktur.

Definition 7.2.4 (Attributauswertung)

1. ξα(A,E) = ‖{θ |A 6αθ E}‖.

2. Es seiξα(0,1)(A,E) = 1, fallsA 6α E, undξα

(0,1)(A,E) = 0 sonst. �

Offensichtlich subsumiertC1 die KlauselC2 genau dann, wennξα(C1,C2) > 0 gilt.

Beispiel 7.2.2 (Attributauswertung) Mit den Attributen und Beispielen von obenist ξα(A1,E1) = 1 und ξα(A1,E4) = 0. Fur A3 = (class(y1,y2) ← s(y1,y3)) giltξα(A3,E1) = 1, ξα(A3,E5) = 2 undξα

(0,1)(A3,E5) = 1. �

Ein relationaler EntscheidungsbaumD ist nun entsprechend den Definitionen 2.3.1und 2.3.4 entweder

– eine Klassenkonstantec– oder einsyntaktisches Konstruktvon der FormD = [A : v1→ D1, . . . ,vn→ Dn].

Dabei istA eine Testklausel,v1, . . . ,vn sind unterschiedliche naturliche Zahlen mitden UnterentscheidungsbaumenD1, . . . ,Dn. Bei einem binaren Entscheidungsbaum istn≤ 2 undv1,v2∈{0,1}.

7.3. Baumaufbau 127

Definition 7.2.5 (Klassifikation) Ein BaumD induziert eineKlassifikationsfunktionδ(D) durch

1. δ(c)(E) = c und

2. δ([A : v1→D1, . . . ,vn→ Dn])(E) =

{δ(Di)(E) ∃ i ξα(A,E) = vi

? sonst.3. Zur Auswertung eines binaren Baums ersetzt manξα durchξα

(0,1). �

7.3 Baumaufbau

Da die Hypothesensprache der existentiellen, konjunktiven Konzepte nach Hausslerin die der relationalen Entscheidungsbaume eingebettet werden kann, sind letztereebenfalls nicht PAC-lernbar, da sonst die existentiellen,konjunktiven Konzepte PAC-lernbar waren. Wir geben deshalb im folgenden einheuristisches Verfahrenzur Kon-struktion relationaler Entscheidungsbaume an.

Algorithmus 7.3.1 (Baumaufbau) Sei S die aktuelle Trainingsmenge, dann ist dieFunktion TRITOP(S) wie folgt definiert:

1. Konstruiere ausSein relevantes AttributA.2. Ist dies nicht moglich, so ist das Ergebnis ein Blatt mit der bzw. einer indetermini-

stisch gewahlten, inS am starksten vertretenen Klassec.3. Sonst:

(a) Bestimme die MengeI = {ξα(A,E) |(E,c)∈S} der vorkommenden Attribut-werte.

(b) Fur i∈ I seiSi = {E |ξα(A,E) = i∧ (E,c)∈S}.(c) SeiDi = TRITOP(Si) mit i∈ I .(d) Das Ergebnis ist der Baum[A : i1→ Di1, . . . , in→ Din] mit I = {i1, . . . , in}.

Ersetzt manξα durchξα(0,1), so entsteht ein binarer Baum. �

In Schritt 1 des Algorithmus wird versucht, ein relevantes,d. h. klassentrennendes,Attribut zu bestimmen, wobei die Relevanz eines Attributs mit dem χ2-Test beurteiltwerden kann (s. Abschnitt 2.4.1). Die Konstruktion eines Attributs, auf die weiter untergenauer eingegangen wird, kann aus dreierlei Grunden fehlschlagen.

1. Die Konstruktion eines Attributs ist nicht notwendig, daS nur noch Objekte einereinzigen Klasse3 enthalt, und deshalb auch nicht moglich. In diesem Fall wird inSchritt 2 ein Blatt mit dieser Klasse konstruiert.

2. Es gibt keine relevante Teststruktur. In diesem Fall sindentweder die verwendetenRelationen zur Beschreibung der Beispiele nicht ausreichend, oder die Klassifika-tion ist nicht nach dem in Def. 7.2.5 vorgestellten Prinzip moglich bzw. die Datensind verrauscht. Es wird in Schritt 2 dann ein Blatt mit einer haufigsten Klassekonstruiert, um trotzdem eine eindeutige Klassifikation zuermoglichen.

3 bzw. ausreichend viele Objekte einer Klasse. Die Anzahl derzulassigen Fehlklassifikationenwird implizit durch denχ2-Test festgelegt, d. h. durch die gewahlte Irrtumswahrscheinlich-keit α.


3. Die relevante Teststruktur wird durch den Attributkonstruktionsalgorithmus nichtgefunden. In diesem Fall wird in Schritt 2 ebenfalls ein Blatt mit einer haufigstenKlasse konstruiert.

Ist die Konstruktion eines AttributsA moglich, so wird die Trainingsmenge nach denWertenξα(A,E) unterteilt, bzw. nachξα

(0,1)(A,E), wenn man sich fur die Konstruk-tion von binaren Baumen entschieden hat (Schritte 3a und 3b). In Schritt 3c wirdder Lernalgorithmus rekursiv auf die entstandenen Teilmengen vonS angewendet. InSchritt 3d wird aus den berechneten Teilbaumen ein zusammengesetzter Baum gebil-det und als Ergebnis zuruckgegeben.

Da die Statistik bei vielen relationalen Datensatzen nicht ausreichend ist, um dieRelevanz eines Attributs mit demχ2-Test zu beurteilen, kann alternativ eineminimaleBlattunterstutzungβ vorgegeben werden, d. h. eine minimale Anzahl fur die Objekteder Trainingsmenge an einem Blatt, die dieselbe Klasse wie das Blatt besitzen. EinAttribut A wird in diesem Fall in Schritt 1 als nicht relevant angesehen, falls die Un-terteilung der Trainingsmenge mitA nicht zu mindestens zwei Teilmengen fuhrt, indenen sich mindestensβ Beispiele jeweils derselben Klasse befinden.

Der kritische Punkt des Baumaufbaus liegt in der Konstruktion des Strukturattri-butsA. Das Verfahren hierzu besteht aus zwei unabhangigen, konkurrierenden Teilen:

1. EinemSpezialisierungsteil(Abschnitt 7.4), bei dem Einerklauseln durch den Spe-zialisierungsoperatorρ+ optimiert werden, und der das ErgebnisattributAspecer-zeugt,

2. und einem Generalisierungsteil mit dem Ergebnisattribut Agen. Im Generalisie-rungsteil(Abschnitt 7.5) werden Teilstrukturen der Beispiele – sog.Beispielteile– als Ausgangsattribute gewahlt und durch Bildung vonαLGGs (Abschnitt 7.5.2)und Anwendung des Generalisierungsoperatorsρ− (Abschnitt 7.5.3) generalisiert.

Ist keines der AttributeAgen undAspecrelevant, so wird das Versagen der Attributkon-struktion angezeigt. Andernfalls wird das bessere Attribut zum Baumaufbau verwen-det, wobei die Gute eines AttributsA mit dergeschatzten TransinformationTrans(A)beurteilt wird.

Da die AttributeAgen undAspecunabhangig voneinander berechnet werden, kannTRITOP in den eingeschrankten Varianten TRITOP-SPEC (nur Spezialisierung) undTRITOP-GEN (nur Generalisierung) verwendet werden. Die beiden Teile der Attribut-konstruktion werden in den folgenden Abschnitten dargestellt. Wir betrachten dabeinur Beispiele und Attribute ohne Constraints. Die Behandlung von Attributklauselnmit Constraints wird in Abschnitt 7.7 dargestellt.

7.4 Spezialisierende Attributberechnung

In Abschnitt 6.4 wurde als wichtige Technik der ILP die Verfeinerung von Klau-seln vorgestellt. Gilt fur einen Verfeinerungsoperatorρ fur C2∈ρ(C1) die BeziehungC1 6 C2 so spricht man von Spezialisierung bzw. Downward Refinement, gilt C2 6 C1,

7.4. Spezialisierende Attributberechnung 129

so spricht man von Generalisierung bzw. Upward Refinement. Bei einem Spezialisie-rungsoperator bezuglich derθ-Subsumtion bedeutet Verfeinerung das Hinzufugen vonLiteralen (Vorbedingungen), Ersetzen von Variablen durchKonstanten und Identifi-kation von Variablen. Bei TRITOP entspricht die Spezialisierung einer Klausel demHinzufugen von Literalen. Durch die Verwendung derα-Subsumtion und die Betrach-tung von konstantenfreien Klauseln konnen Variablen nicht identifiziert oder durchKonstanten ersetzt werden.

7.4.1 Der Spezialisierungsoperatorρ+

Die erste Strategie zur Konstruktion eines geeigneten Attributs besteht in der Anwen-dung des Spezialisierungsoperatorsρ+ auf die Menge der positivenEinerklauseln

Aunit = { (class(x)←) |∃S,c : ((class(x)← S),c)∈S} .

Fur jede in der Trainingsmenge vorkommende Variante der identischen Belegung ver-schiedener Stellen des Kopfliterals wird eine eigene Einerklausel generiert, worin sichTRITOP von Verfahren wie FOIL und PROGOL unterscheidet, bei denen eine einzelneEinerklausel als Startklausel genugt.

Die Eigenschaften vonρ+ werden durch die theoretischen Eigenschaften derα-Subsumtion bestimmt. Wir gehen im folgenden zunachst davon aus, daß in einerBeispiel- oder Attributklausel Knotenvariablen die einzigen zulassigen Terme sind. Esgilt dann die folgende Proposition, die besagt, daß eine Generalisierung einer Klauselweniger oder genausoviele Literale und Variablen enthaltwie die speziellere Klausel.

Proposition 7.4.1 Mit C1 6α C2 gilt ‖C1‖ ≤ ‖C2‖ und‖V(C1)‖ ≤ ‖V(C2)‖. �

Beweis.HatteC1 mehr Literale alsC2, so gabe es zwei verschiedene LiteraleL,L′

in C1, fur die Lθ = L′θ ∈C2 gilt. Aus Lθ = L′θ folgt erstens die Gleichheit derPradikatssymbole. DamitL,L′ wie vorausgesetzt unterschiedlich sein konnen, muß esalso eine Stelle inL bzw. L′ geben, an denen unterschiedliche Knotenvariablen, z. B.x undy, stehen. MitLθ = L′θ folgt aber sofortxθ = yθ, wodurch man zu einem Wi-derspruch zur Tatsache gelangt, daßθ auf den Knotenvariablen injektiv ist. Die zweiteBehauptung folgt direkt aus der Injektivitat vonθ. �

Gibt es Variablen aus vonv verschiedenen Sorten, so konnen die Bedingungen inProp. 7.4.1 nur durch zusatzliche Einschrankungen und bereichsspezifische Heuristi-ken gewahrleistet werden.

Hat die GeneralisierungC1 vonC2 dieselbe Lange wieC2, so sind die KlauselnC1

undC2 alphabetische Varianten. Dies Tatsache folgt sofort aus der durchθ induzier-ten Injektivitat der Literalabbildungl 7→ lθ. Aus ‖C1‖ = ‖C2‖ folgt die Surjektivitatder Literalabbildung, und damit die Surjektivitat vonθ. Jede echte Verallgemeinerungeiner KlauselC2 ohne Constraints hat also mindestens ein Literal weniger alsC2.

Proposition 7.4.2 C1 <α C2 gdw.∃θ C1θ⊂C2. �


Bei θ-Subsumtion kannC1≡C2 trotzC1θ⊂C2 gelten, was ein Hauptproblem bei derDefinition von idealen Verfeinerungsoperatoren ist (s. Abschnitt 6.4).

Aus Prop. 7.4.2 folgt, daß es fur KlauselnC1 undC2 mit C1 6αθ C2 hochstens end-

lich viele KlauselnD geben kann, fur dieC1 6α D 6α C2 gilt. Es gibt also insbesonderekeine unendlichen ab- oder aufsteigenden Ketten (s. Abschnitt 6.4). Es gilt das folgen-de Korollar, daß der Proposition 6.4.2 furθOI-Subsumtion entspricht.

Korollar 7.4.1 Es gilt‖{D |C1 6α D 6α C2}‖< ∞. �

Wir definieren nun den von TRITOP verwendeten Spezialisierungsoperatorρ+. Isteine MengeS von klassifizierten Klauseln und eine zu spezialisierende KlauselC1

gegeben, so gibt es aufgrund des Korrolars nur endlich vieleErweiterungenD vonC1,die mindestens noch eine Klausel inS subsumieren. ErweiterungenD, die uberhauptkeine Klausel inS subsumieren, sind nicht von Interesse. Bei TRITOP konnen dieSpezialisierungen vonC1 direkt aus denjenigen Beispielen berechnet werden, die dasAttribut subsumiert. Wir nehmen also an, es gelteC1 6α

θ C2 fur eine zu spezialisierendeAttributklauselC1 und ein BeispielC2∈S. Die Mengeθ−1(C2−θ(C1)) enthalt danndie Literale, die man zuC1 hinzufugen muß, um ausC1 eine alphabetische VariantevonC2 zu konstruieren. TRITOPs Verfeinerungsoperator ist deshalb wie folgt definiert.

Definition 7.4.1

ρ+(C1) = {C1∪{a} | ∃C2,θ (C2,c)∈S∧C1 6αθ C2∧a∈θ−1(C2−θ(C1))} �

Bei TRITOP ist zusatzlich aus Aufwandsgrunden gefordert, daß ein neues Literala mitden bisherigen Literalen inC1 verbunden sein muß, wennC1 schon Variablen enthalt.

Man kannρ+ so modifizieren, daß man einen idealen Spezialisierungsoperatorρi erhalt, indem man die Erweiterungen einer KlauselC1 nicht aus den gegebenenBeispielen, sondern kombinatorisch mit beliebigen Literalen ohne Betrachtung vonSerzeugt. Jede Erweiterung vonC1 um ein Literal ist echt spezieller alsC1, d. h., ρi

ist korrekt und proper. Außerdem kann man systematisch die endliche Menge allermoglichen Erweiterungen vonC1 um ein einzelnes Literal erzeugen, indem man denVorrat an Relationssymbolen betrachtet, und kombinatorisch Literale erzeugt, die alteVariablen der Klausel oder neue Variablen enthalten. Daρi eine Obermenge der Kan-didatenliterale vonρ+ erzeugt, kann man leicht zeigen, daß man beiC1 6α C2 durchmehrmaliges Anwenden vonρi ausC1 eine alphabetische Variante vonC2 erhalt, d. h.,ρi ist vollstandig. Es gilt deshalb das folgende Korollar mitden Begriffen aus Ab-schnitt 6.4.

Korollar 7.4.2 ρi ist vollstandig, korrekt, endlich und proper, d. h. ideal. �

Die Anwendung vonρ+ auf Einerklauseln ausAunit wird durch die Transinforma-tion gesteuert. Besitzt jedes Attribut inρ+(A) eine schlechtere Bewertung alsA (odereine gleich gute), so stoppt die Optimierung. Andernfalls wird das beste Attribute bzw.ein bestes Attribut inρ+(A) zur weiteren Spezialisierung ausgewahlt (Hill-Climbing-Strategie). Um die Attribute moglichst klein zu halten, werden also nur solche Literale

7.5. Generalisierende Attributberechnung 131

hinzugefugt, die das Attributbewertungsmaß echt erhohen4. Das Verfahren kann wiefolgt zusammengefaßt werden.

Algorithmus 7.4.1 (Berechnung vonAspec) Ssei die Trainingsmenge. Dann wird dasAttribut Aspecwie folgt erzeugt.

1. Aunit = {(class(x)←) |∃S,c : ((class(x)← S),c)∈S}2. Wahle einA∈Aunit mit Trans(A) = maxA′∈Aunit Trans(A′).3. SetzeR= ρ+(A).4. WennR= /0 oder∀A′∈R Trans(A′)≤ Trans(A), dannAspec:= A und Ende.5. Sonst wahleA′′∈R mit Trans(A′′) = maxA′∈RTrans(A′).6. SetzeA := A′′ und gehe zu 3. �

Beispiel 7.4.1Bei der Trainingsmenge in Abb. 7.1 beginnt der Algorithmus mit

Aunit = {(class(y1,y2)←)} .

Das AttributB1 = (class(y1,y2)←) subsumiert alle Beispiele. Die bezuglich Isomor-phien, d. h.Aquivalenzen bezuglich derα-Subsumtion, reduzierte Menge der Erwei-terungen vonB1 ist

ρ+(B1) = {(class(y1,y2)← d(y1,y2)),(class(y1,y2)← d(y3,y1)), (class(y1,y2)← d(y2,y3)),(class(y1,y2)← t(y1,y2)), (class(y1,y2)← t(y2,y3)),(class(y1,y2)← s(y1,y3)), (class(y1,y2)← s(y4,y1)),(class(y1,y2)← s(y2,y3)), (class(y1,y2)← s(y4,y2))} .

Das Attribut (class(y1,y2)← t(y3,y1))∈ ρi(B1) ist nicht in ρ+(B1) enthalten, da esin der Trainingsmenge kein Beispiel gibt, bei dem ein Block den ersten klassifiziertenBlock von links beruhrt. Das AttributA1 =(class(y1,y2)← d(y1,y2)) besitzt die großteTransinformation inρ+(B1) und subsumiert die BeispieleE1,E2,E3,E6,E8. In ρ+(A1)gibt es keine Klausel, die eine hohere Transinformation als A1 besitzt, so daßAspec=A1 das Resultat der Optimierung ist. �

7.5 Generalisierende Attributberechnung

Neben der Spezialisierung ist bei TRITOP die Berechnung von Attributen durch Gene-ralisierung der Beispiele vorgesehen. Die Generalisierung erfolgt in drei Schritten:

1. Beispielteilewerden zur Reduktion des Aufwands bei der Bildung vonαLGGskombinatorisch als Teilstrukturen der Beispiele gebildet. Beispielteile konnen auchohne weitere Generalisierung schon generalisierende Eigenschaften besitzen.

4 Andernfalls wurde man speziellste Attribute und charakteristische Entscheidungsbaume er-halten.


2. Die Beispielteile werden durch Bildung vonspeziellstenα-Generalisierungenmitanderen Beispielteilen generalisiert (αLGG in Abschn. 7.5.2).

3. Die Generalisierungen der Beispielteile werden anschließend durch denGenera-lisierungsoperatorρ− weiter vereinfacht (Abschn. 7.5.3). Man erhalt so aus deneigentlich eher deskriptivenαLGGs moglichst kleine, diskriminierende Attribute.

Der genaueAblauf der Generalisierung, d. h. die Anwendung der genannten Techni-ken, wird in Abschnitt 7.5.3 dargestellt.

7.5.1 Beispielteile

Der Aufwand zur Berechnung vonαLGGs hangt exponentiell von der Knotenzahl deskleineren Beispiels ab. Deshalb werden nicht die Beispieleselbst generalisiert, son-dern es werden in einem Vorverarbeitungsschritt aus den Beispielen sog. Beispielteilegebildet, die Teilstrukturen der Ursprungsbeispiele darstellen, und diese statt der Ur-sprungsbeispiele generalisiert. Die Bildung der Beispielteile erfolgt kombinatorischund wird durch die von Benutzer zu wahlenden Parameter

1. κ: die Kontexttiefe (κ≥ 0)2. γ: die Machtigkeit der Basismenge, um die der Kontext gebildet wird (γ≥ k,γ > 0)

bestimmt.In [34] werden die Beispielteile als (generalisierte) Kontextattribute bezeichnet, da

sie durch die Kontextattribute von INDIGO motiviert sind. Um Begriffsverwirrungenzu vermeiden, wird im folgenden der Begriff

”Beispielteil“ benutzt.

Bei gegebenemγ wird fur ein BeispielE = class(x1, . . . ,xk) ← a1, . . . ,am je-de BasismengeV = {y1, . . . ,yγ} ⊆ V(E) betrachtet, die die klassifizierten Objekte{x1, . . . ,xk} umfaßt. Giltk > 0 und γ = k, so wird der Kontext also gerade um dieklassifizierten Beispiele gebildet. Beispielteile sind formal wie folgt definiert.

Definition 7.5.1 (Beispielteile)Sei E = class(x1, . . . ,xk) ← a1, . . . ,am ein BeispielundV = {y1, . . . ,yγ} ⊆ V(E) mit {x1, . . . ,xk} ⊆V eine Basismenge.

1. Fur ein beliebigesV ′ sei

Ext(V ′) = {ai |1≤ i ≤m,V(ai)∩V ′ 6= /0}

die Menge aller Literale, die mindestens eine Variable inV ′ besitzen.2. Derl -Kontext Ctxtl der BasismengeV ist definiert als

Ctxt0(V) = {ai |1≤ i ≤m,V(ai)⊆V} (7.1)

Ctxtl+1(V) = Ctxt0(V(Ext(V(Ctxtl(V))))) fur l > 1. (7.2)

3. Die Klauselclass(x1, . . . ,xk)← Ctxtκ(V) stellt ein mogliches Beispielteil vonEdar. �


Wahlt manκ groß genug, so umfaßt ein Beispielteil das gesamte Beispiel– d. h.,man kann die als Attribute interpretierten Beispiele als Spezialfalle von Beispielteilenauffassen. Zur Berechnung der Menge aller Beispielteile

A(γ,κ) = {(Head(C)← Ctxtκ(V)) |(C,c)∈S∧V(Head(C))⊆V ⊆ V(C)∧‖V‖= γ}

aus S werden fur jedes BeispielE die κ-Beispielteile fur alle BasismengenV ={v1, . . . ,vγ} ⊆ V(E) betrachtet.

Fur k > 0 wird man im allgemeinenγ = k wahlen, wodurch fur jedes Trainings-beispiel genau ein Beispielteil berechnet wird, das die klassifizierten Knoten als Ba-sismenge besitzt. Die Große vonκ wird durch den Rechenaufwand bestimmt, bzw.durch Vorkenntnisse oder Annahmen uber die Komplexitat der Teststrukturen in derzu lernenden Hypothese.

Fur k = 0, d. h. bei der Graphklassifikation, mussen fur jedes Beispiel eine ganzeReihe von Beispielteilen berechnet werden, da es keine klassifizierten Knoten gibt,um die der Kontext gebildet werden konnte. In allgemeinen Fall γ ≥ k werden biszu

(‖V(E)‖−k(γ−k)

)verschiedene Beispielteile gebildet. Dies bedeutet, daß bei γ > k die

Aufwandsreduktion bei der Berechnung von speziellstenα-Generalisierungen durchdie Anzahl der zu berechnenden Generalisierungen teilweise kompensiert wird.

Konnen die Parameterγ undκ nicht geeignet eingestellt werden, so muß von denTrainingsbeispielen als speziellsten Beispielteilen ausgegangen werden, oder aber derBaum kann durch reine Spezialisierung, d. h. ohne Beispielteile und Generalisierung,gebildet werden. Fur den Spezialisierungsalgorithmus 7.4.1 mussen keine benutzerde-finierten Parameter vorgegeben werden.

Beispiel 7.5.1 (Beispielteile)Im folgenden soll wieder das BeispielE1 =(class(x1,x2)← d(x1,x2), t(x2,x4), s(x1,x3), s(x2,x3), s(x4,x3), s(x3,x5)) aus Abb. 7.1betrachtet werden. Es seiγ = 2, d. h., der Kontext wird um die BasismengeV = {x1,x2}gebildet. Der 0-Kontext zur VariablenmengeV = {x1,x2} enthalt solche Literale desBeispiels, die nur Variablen ausV besitzen, also Ctxt0({x1,x2}) = {d(x1,x2)} mitdem zugehorigen Beispielteil(class(x1,x2)← d(x1,x2)). Der 1-Kontext von(x1,x2)enthalt die (induzierte) Teilstruktur, deren Knoten gerade den Abstand 1 zu(x1,x2)besitzen, also Ctxt1({x1,x2}) = {d(x1,x2), t(x2,x4),s(x1,x3),s(x2,x3),s(x4,x3)}.Lediglich der Knotenx5 ist noch nicht im Kontext enthalten. Man erhalt dasAttribut (class(x1,x2) ← d(x1,x2), t(x2,x4),s(x1,x3),s(x2,x3),s(x4,x3)). Der 2-Kontext vonV = {x1,x2} in E1 umfaßt das ganze Beispiel. Man erhalt das Attribut(class(x1,x2)← d(x1,x2), t(x2,x4),s(x1,x3),s(x2,x3),s(x4,x3),s(x3,x5)) = E1.

Wurde man Beispiele fur das Konzept”Tor“ (Graphklassifikation) betrachten, z. B.

(class← d(x1,x2), t(x2,x4), s(x1,x3), s(x2,x3), s(x4,x3), s(x3,x5)) so mußten beiγ = 2alle Basismengen mit zwei Elementen betrachtet werden, d. h. {x1,x2}, {x1,x3}, . . . ,{x4,x5}. �


7.5.2 Speziellsteα-Generalisierungen

Neben den Einerklauseln (Abschnitt 7.4) geht TRITOP zusatzlich von den Trainings-beispielen – bzw. von Beispielteilen – als den speziellstensinnvollen Attributen ausund generalisiert diese durch Bildung vonαLGGs – das sind speziellste Generalisie-rungen bezuglich derα-Subsumtion, auf die anschließend der Generalisierungsopera-tor ρ− angewendet wird.

Beispiel 7.5.2 (speziellste Generalisierungen)Ein Beispiel fur eine α-Generalisierung ist das erste AttributA1 im Baum D aus Abbildung 7.3, dasals gemeinsame Teilstruktur vonE1 und E2 auftritt (s. Abb. 7.2), d. h., esgilt A1 6α

θ E1 und A1 6αθ′ E2 mit zwei α-Substitutionenθ und θ′. A1 wird

als α-Generalisierung von E1 und E2 bezeichnet. Das erweiterte AttributG2 = (class(y1,y2) ← d(y1,y2),s(y1,y3),s(y2,y3),s(y3,y5)) (G2 in Abb. 7.4) isteine speziellste oder maximaleα-Generalisierung (αLGG) vonE1 undE2, da man dieKlausel als Generalisierung vonE1 und E2 nicht erweitern kann. In Abbildung 7.4sind alleαLGGs vonE1 undE2 und ihr LGG abgebildet. �

α-Generalisierungen sind formal wie folgt definiert.

Definition 7.5.2 (α-Generalisierung)

1. Die KlauselC ist eineα-Generalisierung vonC1 undC2, wennC 6α C1 undC 6α

C2 gilt.2. C ist eine speziellsteα-Generalisierung, wenn fur jede andereα-Generalisierung

C3 die RelationC <α C3 nicht gilt.3. αlgg(C1,C2) sei die Menge der speziellstenα-Generalisierungen vonC1 undC2. �

Im Gegensatz zu Plotkins LGG kann es mehrereαLGGs geben, die eine unterschiedli-che strukturelle Komplexitat besitzen konnen. Man kann jedoch zeigen (s. auch [53]),daß der LGG unter bestimmten Bedingungen aus denαLGGs zusammengesetzt ist,d. h., man kann den Korper des reduzierten LGG in dieαLGGs zerlegen. Allerdingskann man nicht jede (vollstandige Menge) vonαLGGs wieder zum LGG zusammen-setzen. Dies liegt daran, daß die denαLGGs entsprechenden Teile des LGGnichtvariablendisjunkt sind. Da jederαLGG jedoch eine unabhangige Klausel ist, konnteman die Variablen beliebig umbenennen, so daß der ursprunglich fur bestehende Varia-blenzusammenhang verloren gehen kann. Außerdem kann es Literale im LGG geben,die in keinemαLGG vorkommen – namlich solche, die fur sich alleine genommenschon nichtinjektive Einbettungen benotigen. Insofern ist der LGG als Testspeziellerals ein konjunktiver Test, der alleαLGGs abpruft. Im folgenden Abschnitt wird einAlgorithmus zur (vergleichsweise) effizienten Konstruktion derαLGGs aus dem LGGangegeben.

7.5.2.1 Der αLGG-Algorithmus Wir verwenden Plotkins LGG ([84]) als Aus-gangspunkt zur Berechnung der speziellstenα-Generalisierungen. Nach [84] (Ab-schn. 6.1.3) gibt es zu zwei KlauselnC1 = H1← B1 undC2 = H2← B2 zwei Sub-


sG1 G2 G3

d

s

s

s s s

d t

s s

class(y1,1,y2,2) ← d(y1,1,y2,2),s(y2,2,y3,5),s(y4,4,y3,5),s(y3,5,y5,6) (7.3)

class(y1,1,y2,2) ← d(y1,1,y2,2),s(y1,1,y3,3),s(y2,2,y3,3),s(y3,3,y5,6) (7.4)

← s(y2,3,y3,6),s(y4,5,y3,6), t(y2,3,y4,5) (7.5)

class(y1,1,y2,2) ← d(y1,1,y2,2),d(y1,2,y2,4),s(y1,1,y3,3),s(y1,2,y3,3),s(y1,2,y3,5),

s(y1,4,y3,5),s(y1,3,y3,6),s(y1,5,y3,6),s(y2,1,y3,3),s(y2,2,y3,3),




s(y3,5,y5,6), t(y2,3,y4,5) (7.6)

Abbildung 7.4: (7.3), (7.4), (7.5): DieαLGGsG1, G2 und G3 von E1 und E2, dargestellt alsGraphen und Klauseln.(7.6): lgg(E1,E2) mit den Variablenyi, j = lgg(xi ,x′j).

stitutionenµ1 undµ2, so daß lgg(C1,C2)µ1⊆C1 und lgg(C1,C2)µ2⊆C2 gilt. Die Sub-stitutionenµ1 undµ2 sind im allgemeinen nicht injektiv. Die Grundidee des folgendenAlgorithmus besteht darin, daß man die speziellstenα-Generalisierungen dadurch be-rechnen kann, daß man solche Untermengen von lgg(C1,C2) bestimmt, fur die dieEinschrankungen der Substitutionenµ1 undµ2 α-Substitutionen sind. Man kann rela-tiv einfach zeigen5, daß es zu jederα-GeneralisierungC vonC1 undC2 eine TeilmengeC′ ⊆ lgg(C1,C2) gibt, die eine alphabetische Variante vonC ist. Deshalb kann man alleα-Generalisierungen durch Betrachtung der Teilmengen von lgg(C1,C2) bestimmen.

Zwei Knotenvariablenw,w′ ∈ V(lgg(C1,C2)) heißenkompatibel(comp(w,w′)),wenn w 6= w′, wµ1 6= w′µ1 und wµ2 6= w′µ2 gilt. Gehoren zwei Variablen zu unter-schiedlichen Sorten, oder zu einer vonv verschiedenen Sorte, so werden sie in jedemFall als kompatibel betrachtet. Der Relation

”comp“ kann man einen ungerichteten

GraphenGcomp ohne Schlingen und Mehrfachkanten zuordnen, bei dem die Variablendes LGG die Knoten darstellen. Speziellste Generalisierungen erhalt man durch Be-stimmung von maximalen, d. h. nicht mehr erweiterbaren, Cliquen inGcomp.

5 Gilt C 6αθ C1 undC 6α

θ′ C2, so betrachtet man zum BeweisC′ = {lgg(θ(l),θ′(l)) | l ∈C}.


Die Variablenmenge einesαLGGsL⊆ lgg(C1,C2) bildet in jedem Fall eine Clique,da die Variablen untereinander kompatibel sind. Die Cliquemuß abernicht maximalsein, da es u. U. Variablen inV(lgg(C1,C2)) geben kann, die zu den Variablen inLkompatibel sind, fur die man aber keine ErweiterungL′ von L finden kann, die diesezusatzlichen Variablen enthalt: Sei Restr(lgg(C1,C2),W) die Einschrankung des LGGauf solche Literale, die nur Variablen einer VariablenmengeW ⊆ V(lgg(C1,C2)) ent-halten. Es gilt im allgemeinen nur

V(Restr(lgg(C1,C2),W))⊆W (7.7)

und nicht die Gleichheit. Allerdings sind die Variablen derspeziellsten GeneralisierungL in jedem FallTeil einer maximalen Clique, so daß die Bestimmung der maximalenCliquen fur die Bestimmung derαLGGs genugt.

Da fur maximale CliquenW undW′ gelten kann

Restr(lgg(C1,C2),W) <α Restr(lgg(C1,C2),W′) , (7.8)

ist die Eigenschaft, daß die Variablen einerα-Generalisierung eine maximale Cliquebilden, nurnotwendigzur Bestimmung von speziellsten Generalisierungen, wodurchkein reinesVerfahren zur Cliquenbestimmung fur die Berechnung vonαlgg(C1,C2)ausreicht.

Die rekursive Prozedur Algg(C,V,L) zur Berechnung der Mengeαlgg(C1,C2)in Def. 7.5.1 basiert auf einer rekursiven Variante des effizienten und exaktenMAXCLIQUE-Algorithmus von Carraghan und Pardalos ([12]),mit dem großte ma-ximale Cliquen berechnet werden konnen. Eine großte maximale Clique ist maximalund besitzt maximale Knotenzahl. Das Prinzip des Verfahrens besteht darin, von derbeliebigangeordnetenMenge der VariablenV(lgg(C1,C2)) auszugehen, die Variablenin der vorgegebenen Reihenfolge zu betrachten, und fur jede Variablex die maximalenCliquen mit bzw. ohne diese Variable durch rekursive Aufrufe mit bezuglichx geeig-net eingeschrankten Teilmengen vonV(lgg(C1,C2)) zu bestimmen. Beim Algorithmusvon Carraghan und Pardalos wird die Große der bislang gefundenen Cliquen zum Pru-ning von solchen rekursiven Aufrufen des Verfahrens verwendet, die sicher nur zuCliquen mit kleinerer Knotenzahl fuhren konnen (dynamische Programmierung). Ver-zichtet man auf diese Pruning, so berechnet das Verfahrenalle maximalen Cliquen undnicht nur die großten. Durch zusatzliche Berucksichtigung der Tatsache, daß zwischenden zu zwei maximalen Cliquen gehorigen Literalmengen dennoch eine Subsumti-onsbeziehung bestehen kann (vgl. (7.8)), erhalt man den imfolgenden dargestelltenAlgorithmus.


Algorithmus 7.5.1 (Algg(C,V,L)) Die Prozedur Algg(C,V,L) besitzt die folgendenParameter:

1. C⊆ V(lgg(C1,C2)) ist eine Menge von Variablen, die zueinander und zu den Va-riablen inV ⊆ V(lgg(C1,C2)) kompatibel sind. Die Prozedur Algg(C,V,L) wirdinitial mit C = /0 aufgerufen.

2. Die VariablenmengeV ⊆ V(lgg(C1,C2)) enthalt moglicherweise noch inkompa-tible Variablen. Die Prozedur Algg(C,V,L) wird initial mit V = V(lgg(C1,C2))aufgerufen.

3. L ⊆ lgg(C1,C2) sind die zuC ∪ V gehorigen Literale des LGG, d. h.L =Restr(lgg(C1,C2),C∪V). Bei jedem rekursiven Aufruf der Prozedur sind die Men-genC undV disjunkt und enthalten (mindestens) die Variablen der Literale inL6.Initial ist L = lgg(C1,C2).

Es wird angenommen, daßV(lgg(C1,C2)) beliebig aber fest geordnet ist. Der Algo-rithmus operiert auf der globalen VariableAlggs, die initial leer ist und am Ende dieαLGGs enthalt. Die Prozedur Algg(C,V,L) besteht aus den folgenden Schritten:

1. Wenn es inkompatible Variablen inV gibt (d. h.,C∪V ist keine Clique):(a) Wahle ein minimalesx∈V und konstruiereNx := {v|v∈V ∧comp(x,v)}.(b) Es seiW1 = {x}∪C∪Nx, L1 = Restr(L,W1).(c) Berechne rekursiv Algg({x}∪C,Nx,L1), d. h. die Cliquen mitx.(d) Es seiW2 = C∪V−{x}, L2 = Restr(L,W2).(e) Berechne rekursiv Algg(C,V−{x},L2), d. h. die Cliquen ohnex.(f) Return.

2. Andernfalls istC∪V eine maximale Clique. Dann:(a) Return, wenn es einL′ in Alggsgibt mit L 6α L′, d. h., wennL keine speziellste

Generalisierung ist oder schon inAlggsvorkommt.(b) Sonst seiAlggs:= {L′′ |¬(L′′ 6α L)∧L′′∈Alggs}∪{L} die bereinigte Menge

der bisher konstruierten Generalisierungen.(c) Return. �

In Schritt 1 wird als erstes uberpruft, obC∪V bereits eine Clique darstellt, d. h.,ob die Variablen inV auch untereinander kompatibel sind. Wenn nicht, so erfol-gen zwei Rekursionen. Zunachst wird in Schritt 1a ein minimales Elementx unddessen NachbarnNx in V bestimmt. Dann ist{x} ∪C eine erweiterte Clique, undNx ist die Menge der Knoten ausV, die zu {x} ∪C kompatibel sind. MitW1 ={x} ∪C∪Nx ist L1 = Restr(L,W1) die zugehorige Literalmenge. Der erste rekursi-ven Aufruf Algg({x}∪C,Nx,L1) berechnet somit alle Cliquen, die das Elementx ent-halten7 (Schritt 1c). Im zweiten rekursiven Aufruf Algg(C,V −{x},L2) werden mitW2 = C∪V−{x} undL2 = Restr(L,W2) die Cliquenohne xbestimmt.

6 Es gilt wegen (7.7)L = Restr(lgg(C1,C2),C∪V), i. a. aberV(L)⊆C∪V.7 Man kann allerdings nicht zusichern, daßL die Variablex noch enthalt.


IstC∪V eine Clique, so wird die globale VariableAlggsaktualisiert, die die bishergefundenen Generalisierungen enthalt und initial leer ist. Die zur neuen CliqueC∪Vgehorige LiteralmengeL wird genau dann der ListeAlggshinzugefugt, wennL kei-nes der Elemente vonAlggssubsumiert, d. h. noch erweitert werden kann. In diesemFall ist L keine speziellste Generalisierung,obwohl C∪V eine maximale Clique ist.WennL der ListeAlggshinzugefugt wird, werden alle Elemente ausAlggsentfernt,die ihrerseitsL subsumieren. Die VariableAlggskann also auch solche Generalisie-rungen enthalten, die sich im weiteren Verlauf der Berechnungen als noch erweiterbarherausstellen. Die Korrektheit des Verfahrens folgt aus der Tatsache, daß

”Algg“ alle

maximalen Cliquen bestimmt.Alggsenthalt nach Terminierung deshalb nur speziellsteGeneralisierungen.

Zur Effizienzsteigerungkann man die rekursiven Aufrufe durch die AufrufeAlgg(({x}∪C)∩V(L1),Nx∩V(L1),L1) und Algg(C∩V(L2),(V−{x})∩V(L2),L2)ersetzen, wodurch nicht mehr maximale Cliquen berechnet werden, sondern Cliquen,fur die es Literalmengen gibt, diealle Variablen der Clique auch enthalten, und diebezuglich dieser Forderung nicht mehr erweiterbar sind.

Beispiel 7.5.3 (αLGG) In Abb. 7.4 ist der LGG der BeispieleE1 undE2 aus der Abbil-dung 7.2 dargestellt. Die Variableyi, j im LGG steht fur die Generalisierung der Varia-blexi in E1 mit der Variablex′j in E2. Die Variableny3,3 undy3,5 sind nicht kompatibel,da sie beide Generalisierungen vonx3 sind. Die Variableny1,1 und y2,2 sind hinge-gen kompatibel. Der Algorithmus

”Algg“ findet die GeneralisierungenG1, G2 undG3

in Abbildung 7.4, die den Cliquen{y1,1,y2,2,y3,5,y4,4,y5,6}, {y1,1,y2,2,y3,3,y5,6} und{y2,3,y3,6,y4,5} entsprechen. (Als Attribute werden in TRITOP nur die ersten beidenKlauseln verwendet, da die dritte kein Kopfliteral besitzt und somit als strukturellesAttribut ungeeignet ist.) �

Die speziellstenα-Generalisierungenαlgg(C1, . . . ,Cn) von mehr als zwei Bei-spielen{C1, . . . ,Cn} lassen sich entweder aus dem eindeutigen und reihenfolgeun-abhangigen lgg(C1, . . . ,Cn) der Beispiele mit dem Algg-Algorithmus erzeugen, oderaber durch Berechnung von paarweisenαLGGs. Es sei dazuF1 = {C1} und Fi+1 ={C|C∈αlgg(Fi ,Ci+1)} fur i ≥ 1. Dann enthaltFn die speziellstenα-Generalisierungenvon{C1, . . . ,Cn}, genauerαlgg(C1, . . . ,Cn) = {C|C∈Fn∧¬(∃ C′C′∈Fn∧C <α C′)}.

In [34] wird ein Verfahren zur Berechnung vonkomplexestenαLGGs vorgestellt,also von Generalisierungen, die bestimmten heuristisch definierten Qualitatskriteriengenugen – z. B. maximale Knotenzahl besitzen. KomplexesteGeneralisierungen las-sen sich effizienter berechnen als allgemeineαLGGs, und ihre Anzahl ist meist ge-ringer. Komplexeste Generalisierungen konnen zur heuristischen, sukzessiven Berech-nung der komplexesten Generalisierung von mehreren Klauseln mit Hilfe einer loka-len Optimierungsstrategie verwendet werden. Da jedoch dieklassifizierungsrelevan-te Strukturinformation nicht unbedingt Teil einer komplexesten Generalisierung seinmuß, konnen bestimmte Konzepte nur mit allgemeinenαLGGs gelernt werden.

Die Berechnung der speziellstenα-Generalisierungen ist auch fur Beispielteile oftextrem rechenaufwendig. Dies folgt aus der Tatsache, daß der hier verwendete Be-


griff der speziellstenα-Generalisierung in engem Zusammenhang zu Hausslers”Most

Specific Generalizations“ (MSG) steht (Abschnitt 3.1). Aufgrund der in Abschnitt 6.4erwahnten Resultate von J.-U. Kietz besitzt der Algorithmus in Def. 7.5.1 in einigenFallen einen Aufwand, der polynomiell in 2d ist, wobeid die Variablenzahl des klei-neren Beispiels ist.

7.5.3 Der Generalisierungsoperatorρ−

Die Beispielteile inA(γ,κ) werden durch Bildung vonαLGGs generalisiert, wobei einheuristisches Suchverfahren eingesetzt wird, das durch die Transinformation gesteu-ert wird. Dazu werden die Attribute inA(γ,κ) ihrer Gute entsprechend angeordnet undder Reihe nach betrachtet. Das jeweils aktuelle AttributA wird durch Bildung vonαLGGs mit den restlichen Elementen ausA(γ,κ) generalisiert. Besitzt keine der so ent-stehenden Generalisierungen eine Gute, die besser als dievon A ist, so wirdA durchAnwendung des Generalisierungsoperatorsρ− weiter reduziert. Die Anwendung vonρ− aufA erfolgt bei TRITOP ebenfalls in einem Hill-Climbing-Verfahren. Ist das so re-duzierte Attribut relevant, so ist die Attributberechnungbeendet. Wenn nicht, so wirddas bezuglichA nachstschlechtere Attribut inA(γ,κ) derselben Prozedur unterworfen.Wurden alle Beispielteile inA(γ,κ) betrachtet, ohne daß ein relevantes Attribut kon-struiert werden konnte, so wird die letzte berechnete Generalisierung als irrelevantesErgebnisattribut zuruckgegeben (das Attribut wird in jedem Fall nicht zum Baumauf-bau verwendet).

Der Generalisierungsoperatorρ−, mit dem aus denα-Generalisierungen der Bei-spielteile diskriminierende Attribute erzeugt werden, ist wie folgt definiert.

Definition 7.5.3 FurA 6= � ist ρ−(A) = {A−{l}| l ∈Body(A)}. �

Man beachte, daß man durch iterierte,geeigneteAnwendung vonρ− u. a. jede speziell-ste Generalisierung der Attribute inA(γ,κ) erhalt. Beiθ-Subsumtion konnen speziellsteGeneralisierungen langer sein als die Ursprungsklauselnund lassen sich deshalbnichtdurch das Loschen von Literalen aus den Ursprungsklauselnerzeugen.

Der Ablauf der Generalisierung laßt sich wie folgt zusammenfassen.

Algorithmus 7.5.2 (Berechnung vonAgen) S ist die Trainingsmenge,κ ist die Kon-texttiefe undγ die Basismengengroße. Dann wirdAgen wie folgt berechnet.

Beispielteile:1. Berechne die Beispielteile

A(γ,κ)={(Head(C)←Ctxtκ(V)) |(C,c)∈S∧V(Head(C))⊆V ⊆V(C)∧‖V‖= γ}.Berechnung derαLGGs:

2. SetzeA := A(γ,κ).3. WahleA∈A mit Trans(A) = maxA′∈A Trans(A′) und setzeA := A−{A}.4. SetzeG := {C|A′∈A∧C∈αlgg(A,A′)}.5. Wenn∀A′∈G Trans(A′)≤ Trans(A), dann gehe zu Schritt 8.6. Sonst wahleA′′∈G mit Trans(A′′) = maxA′∈GTrans(A′).


7. SetzeA := A′′ und gehe zu 4.Anwendung vonρ−:

8. SetzeR := ρ−(A).9. WennR= /0 oder∀A′∈R Trans(A′) < Trans(A), dann setzeAgen := A und gehe zu

Schritt 12.10. Sonst wahleA′′∈R mit Trans(A′′) = maxA′∈RTrans(A′).11. SetzeA := A′′ und gehe zu 8.

Entscheidunguber Relevanz und evtl. Backtracking:12. WennAgen relevant ist, dann Ende.13. Sonst: wennA = /0, dann ebenfalls Ende mit (irrelevantem)Agen.14. Sonst: gehe zu Schritt 3. �

Beispiel 7.5.4 (Generalisierung)Die Arbeitsweise von Algorithmus 7.5.2 soll imfolgenden vereinfacht am Beispiel dargestellt werden. Wirnehmen an, daß(class(x1,x2)← d(x1,x2), t(x2,x4),s(x1,x3),s(x2,x3),s(x4,x3))∈A(2,1) (ein 1-KontextvonE1) als erstes Beispielteil in Schritt 3 betrachtet wird. Die Klausel

A4 = (class(y1,y2,y)← s(y1,y3),s(y2,y3),d(y1,y2))

erhalt man als speziellste Generalisierung dieses Beispielteils mit dem 1-Beispielteil(class(x′1,x

′2)← d(x′1,x

′2), d(x′2,x

′4), s(x′1,x

′3), s(x′2,x

′3), s(x′2,x

′5))∈A(2,1) des Beispiels

E2 (A4 ist einbettbar in den zweitenαLGG, G2, vonE1 undE2 in Abb. 7.4). Wir ver-zichten auf die vollstandige Angabe der MengeG in Schritt 4 und nehmen an, daßA4 maximale Transinformation inG besitzt und sich nicht mehr durch Bildung vonweiterenαLGGs verbessern laßt.A4 subsumiert die BeispieleE1, E2, E6, E8 und dieNegativbeispieleE3 undE7. Der Algorithmus konstruiert nun mitρ− ein reduziertesAttribut, indem er die redundanten Literales(y1,y3) unds(y2,y3) ausA4 entfernt (A4

enthalt keine irrelevanten Literale). Wie bei der Spezialisierung kommt man zum op-timalen AttributAgen= A1 = (class(y1,y2)← d(y1,y2)) aus dem Entscheidungsbaum(7.3).

Es gilt alsoAgen = Aspec= A1. Die Berechnung vonA1 als Spezialisierung einerEinerklausel jedoch wesentlich effizienter und

”sicherer“ als die Erzeugung durch Bei-

spielteile und Generalisierung (indeterministische Entscheidungen bei der Generalisie-rung!). �

Die Darstellung des Baumaufbaus und der Attributkonstruktion soll mit einem letztemBeispiel beschlossen werden.

Beispiel 7.5.5 (Baumaufbau, fortgesetzt)Wir nehmen nun an, daß der Attributkon-struktionsalgorithmus furS das Attribut Agen = Aspec = A1 = (class(y1,y2,y) ←d(y1,y2)) als Ergebnis hat, und daß das Attribut relevant ist (z. B. bezuglich desβ-Kriteriums mitβ = 1). Dies fuhrt zur Unterteilung der Trainingsmenge in die Teilmen-genS1 = {E1,E2,E3,E6,E7,E8} undS0 = {E4,E5}. Die MengeS0 ist bereits klassen-rein und braucht nicht weiter unterteilt zu werden. Fur dieMengeS1 wird mit denbeiden beschriebenen Verfahren wieder jeweils ein Attribut AspecundAgenberechnet.

7.6. Bereichstheorien 141

Der Spezialisierungsalgorithmus erzeugt zunachst ausS1 = {E1,E2,E3,E6,E7,E8}fur die Einerklausel B1 von oben die Mengeρ+(B1) = {(class(y1,y2) ←d(y1,y2)), (class(y1,y2) ← d(y3,y1)), (class(y1,y2) ← d(y2,y3)), (class(y1,y2) ←t(y2,y3)), (class(y1,y2) ← s(y1,y3)), (class(y1,y2) ← s(y4,y1), (class(y1,y2) ←s(y2,y3)), (class(y1,y2)← s(y4,y2))} erzeugen. Man kann zeigen, daß die Attribute(class(y1,y2)← d(y1,y2)), (class(y1,y2)← s(y1,y3)), und (class(y1,y2)← s(y2,y3))die Transinformation 0 besitzen. Die großte Transinformation besitzt das Attri-but (class(y1,y2) ← t(y2,y3)) welches drei Positivbeispiele subsumiert und keinGegebenbeispiel. Der Spezialisierungsalgorithmus wahlt deshalb(class(y1,y2) ←t(y2,y3)) zur weiteren weiteren Optimierung. Jedoch nur die Spezialisierung von(class(y1,y2)← s(y4,y1)) oder(class(y1,y2)← s(y4,y2)) hatte zum optimalen Attri-but A2 = (class(y1,y2)← s(y4,y1),s(y4,y2)) gefuhrt. Die Verwendung einer Speziali-sierung von(class(y1,y2)← t(y2,y3)) wurde zu einem Baum fuhren, der wesentlichkomplizierter ist als der Baum in Abb. 7.3. D. h., in diesem Fall fuhrt die lokal optimaleSuchstrategie nicht zu einem global optimalen Attribut.

Das Generalisierungsverfahren arbeitet wie folgt. Durch Generalisierung der1-Beispielteile der BeispieleE3 mit E7 wird das Attribut A5 = (class(y1,y2) ←d(y1,y2),s(y1,y3),s(y2,y3),s(y4,y1),s(y4,x2)) bestimmt, welches die Klassen inS1

bereits trennt. Durch Anwendung vonρ− kommt man zum reduzierten AttributAgen= A2 = (class(y1,y2)← s(y4,y1),s(y4,y2)). Durch Verwendung vonAgen= A2 =(class(y1,y2)← s(y4,y1),s(y4,y2)) als Attribut findet TRITOP den optimalen Baum inAbbildung 7.3. �

Als Resumee der Attributkonstruktion laßt sich feststellen, daß die beiden dargestelltenVerfahren u. U. unterschiedliche Attribute konstruieren.Der Vorteil der rein speziali-sierungsbasierten Konstruktion liegt im deutlich geringeren Aufwand, und darin, daßkeine Parameter eingestellt werden mussen. Der Vorteil der generalisierungsbasiertenAttributkonstruktion besteht in der

”geringeren Lokalitat“ der Suche.

Hiermit ist die Darstellung der grundlegenden Elemente desBaumaufbaus beiTRITOP abgeschlossen.

7.6 Bereichstheorien

Bei TRITOP ist das fur ein klassifiziertes Tupel von Knoten relevante Wissen ein Teildes Beispiels. Eine BereichstheorieT = {C1, . . . ,Cn} bei TRITOP enthalt deshalb bei-spielunabhangiges Wissen uber das gerade betrachtete Anwendungsgebiet8 in FormvongenerativenKlauseln.

Bei TRITOP lassen sich Bereichstheorien durch die generalisierte Subsumtion bzw.aquivalent durch Saturierung einbeziehen, wobei die Begriffe fur die α-Subsumtiongeeignet angepaßt werden mussen. Es seiΦ(T) = {Φ(C1), . . . ,Φ(Cn)}. Die generali-sierteα-Subsumtion ist wie folgt definiert.

8 Bei ILP-Systemen wie PROGOL enthalt das Background Knowledge Beispielwissen undbereichsspezifisches Wissen.


Definition 7.6.1 (generalisierteα-Subsumtion) T sei eine Theorie undC1 und C2

Klauseln. Dann ist definiert:C1 4αT C2 gdw.Φ(C1) 4Φ(T) Φ(C2). �

Wieder soll auf die Expansion der Formeln, d. h. aufΦ, verzichtet werden. Dies ist beider generalisiertenα-Subsumtion etwas komplizierter als bei derα-Subsumtion, dain der Definition 6.1.2 Modelle der Theorie, als vonΦ(T) betrachtet werden. Abhilfeschafft der Begriff desα-Modells, der sich aufα-Variablenbelegungen stutzt, die wieα-Substitutionen fur einzelne Klauseln so definiert sind, daß unterschiedliche Knoten-variablen in der Klausel mit unterschiedlichen Werten belegt werden. Fur Theorien,d. h. fur konjunktiv verknupfte Klauseln, kann eineα-Variablenbelegung unterschied-liche Variablen aus unterschiedlichen Klauseln gleich belegen. Statt der Modelle vonΦ(T) kann man nun aquivalentα-Modelle vonT betrachten: Wir definieren einα-Modell einer geschlossenen Formel oder Theorie als ein Modell, wobei die Formeloder Theorie nur furα-Variablenbelegungen fur die quantifizierten Variablen wahrsein muß.

Es gilt der folgende Satz.

Satz 7.6.1Es seienC1 undC2 Klauseln undT eine Theorie.

1. C1 4αT C2 impliziert C1 4T C2, wenn nurα-Substitutionen undα-Modelle bei4

betrachtet werden.2. GiltC1 4T C2, wobei nurα-Substitutionen undα-Modelle bei4 betrachtet werden,

dann giltC1 4αT C2. �

Zum Beweis des Satzes benotigt man das folgende Lemma, welches besagt, daß dieα-Modelle von KlauselnC genau die Modelle vonΦ(C) sind.

Lemma 7.6.1 (α-Modelle) I ist einα-Modell vonC gdw. I ist ein Modell vonΦ(C).

Beweis von→: C = H← B sei eine Klausel undI einα-Modell vonC. Dann ist nachDefinition der Folgerung fur alleα-Variablenbelegungenβ entweder (1)ωI ,β(B) = 0oder (2)ωI ,β(H) = 1.

(1) Wenn ωI ,β(B) = 0 fur eine α-Variablenbelegungβ gilt, gilt aber auchωI ,β(B,∆(C)) = 0. Wir mussen jetzt noch zeigen, daß auch fur nicht-α-Variablenbelegungenβ′ ωI ,β(B,∆(C)) = 0 gilt. Dies folgt aus der Tatsache, daß furnicht-α-Variablenbelegungenβ′ schonωI ,β′(∆(C)) = 0 gilt. Wir haben also gezeigt:fur eine beliebige Variablenbelegungβ ist ωI ,β(B,∆(C)) = 0, wennωI ,β(B) = 0.

(2) Ist fur fur eineα-Variablenbelegungβ ωI ,β(B,∆(C)) = 1, so ist notwendiger-weiseωI ,β(H) = 1, daβ ja einα-Modell vonC ist. Ist eine Variablenbelegungβ keineα-Variablenbelegung, so ist stetsωI ,β′(∆(C)) = 0.

Also ist fur jedes beliebigeβ ωI ,β(H← B,∆(C)) = ωI ,β(Φ(C)) = 1. D. h.,I ist einModell vonΦ(C).Beweis von←. Sei I ein Modell vonΦ(C). Dann ist fur alle VariablenbelegungenβentwederωI ,β(B,∆(C)) = 0 oderωI ,β(H) = 1. Im FalleωI ,β(B,∆(C)) = 0 folgt fur alleα-Variablenbelegungenβ ausωI ,β(B,∆(C)) = 0 auchωI ,β(B) = 0, daωI ,β(∆(C)) = 1.Somit ist fur alleα-Variablenbelegungenβ ωI ,β(B) = 0, wennωI ,β(B,∆(C)) = 0, und

7.6. Bereichstheorien 143

ωI ,β(H) = 1, falls ωI ,β(B) = 1. Also gilt fur alleα-V. β die BeziehungωI ,β(C) = 1.Also ist I ein α-Modell vonC. �

Der Beweis des Satzes geht nun wie folgt.Beweis von Satz 7.6.1.1.Es gelteC1 4α

T C2. Zu zeigen ist, daßC1 4T C2 mit α-Substitutionenθ und α-Modellen gilt. C1 4α

T C2 ist nach Def. 7.6.1 aquivalent zuΦ(C1) 4Φ(T) Φ(C2). D. h., wennΦ(C2) das GrundatomA in einem Herbrand-ModellvonΦ(T) uberdeckt, dann auchΦ(C1).

Sei A nun ein Grundatom, wasC2 in einemα-Herbrand-ModellI von T fur eineα-Substitutionθ uberdeckt. D. h., mitC2 = H ← B gilt A = Hθ, und es gibt eineα-Grundsubstitutionσ, so daßBθσ wahr in I ist. Zu zeigen ist jetzt, daß die KlauselC1

das GrundatomA in der InterpretationI ebenfalls uberdeckt.Dazu zeigen wir zunachst, daßΦ(C2) das betrachtete GrundatomA uberdeckt und

daßI auch ein Modell vonΦ(T) ist.Φ(C2) uberdeckt das AtomA mit α-Substitutionenθ und σ, da nicht nurBθσ wahr in I ist, sondern auch(B,∆(C2))θσ. Nach Lem-ma 7.6.1 istI ein Modell vonΦ(T). Nach der Definition von4 in Def. 7.6.1 uberdecktdann auchΦ(C1) das GrundatomA, daΦ(C1) 4Φ(T) Φ(C2) vorausgesetzt wurde. Esgibt also Substitutionenθ′ und einσ′, so daß mitC1 = H ′ ← B′ die Konjunktion(B′,∆(C1))θ′σ′ wahr in I ist, undH ′θ′ = A gilt. Da B′θ′σ′ dann ebenfalls wahr inIist, uberdeckt auchC1 das GrundatomA, und das Behauptete ist bewiesen.Beweis von Satz 7.6.1.2.Es gelte nunC1 4T C2, wobei nurα-Substitutionenθ undα-Modelle betrachtet werden. Z. z. istC1 4α

T C2 alsoΦ(C1) 4Φ(T) Φ(C2). Sei nunAein Grundatom, dasΦ(C2) in einem ModellI von Φ(T) uberdeckt. Zunachst ist nachHilfssatz 7.6.1 die InterpretationI auch einα-Modell vonT. Außerdem gibt es nachDefinition derUberdeckung Substitutionenθ undσ, so daß(B,∆(C2))θσ wahr inI ist.Das bedeutet, daßC2 das GrundatomA ebenfalls uberdeckt, und damit nach Voraus-setzung auchC1 mit denα-Substitutionenθ′ undσ′. Mit diesen Substitutionen und derVoraussetzung uberdeckt aber auchΦ(C1) das GrundatomA, so daß das Behauptetegezeigt ist. �

Ist beim Lernen eine nichtleere Bereichstheorie gegeben, so kann man diesein einem Vorverarbeitungsschritt durchα-Saturierung der Beispiele berucksichtigen.Zunachst erhalt man aus Definition 6.1.3 den Begriff derα-Saturierung einer RegelC1

bezuglich einer BereichstheorieT, indem man dieelementareα-Saturierungvon C1

mit einer RegelC2 auf die elementare Saturierung vonΦ(C1) bezuglich der KlauselΦ(C2) zuruckfuhrt.

Definition 7.6.2 (α-Saturierung)

1. SeienC1 = H1←B1 undC2 = H2←B2 Klauseln, und es gelte(←B2) 6αθ (←B1).

Dann heißt die KlauselH1← B1∧H2θ elementareα-Saturierung vonC1 durchC2.2. Fur ein definites ProgrammT ist die α-Saturierung vonC1 bezuglichT definiert

durchC1 ↓α T = H1← [T]αB1, wobei [T]αB1 die transitive Hulle bezuglich der

elementarenα-Saturierung mit Klauseln ausT ist. �

Man beachte, daß mit(← B2) 6α (← B1) auch Φ(← B2) 6 Φ(← B1) gilt. Wennman voraussetzt, daß die Theorieklauseln generativ sind, also keine neuen Variablen


einfuhren, gilt fur die elementareα-Saturierung

Φ(H1← (B1∧H2θ)) = H1← (B1,∆(C1),H2θ) .

Man kann dies auch so auffassen, daß man die elementareα-Saturierung erhalt, indemman die normale elementare Saturierung vonΦ(C1) und Φ(C2) ausrechnet und imErgebnis die Ungleichungen ausΦ(C1) weglaßt. Dies ubertragt sich auf die deduktiveHulle (wie man mit vollstandiger Induktion zeigen kann),und es gilt

Φ(C1 ↓α T) = Φ(C1) ↓Φ(T) . (7.9)

DaT nur generative, funktionsfreie Klauseln enthalt, ist dieα-SaturierungC1 ↓α T au-

ßerdem endlich Wir gelangen nun zum folgendem Theorem, welches die generalisierteα-Subsumtion auf die einfacheα-Subsumtion zuruckfuhrt.

Satz 7.6.2Fur KlauselnC1 undC2 gilt: C1 4αT C2 gdw.C1 6α C2 ↓

α T. �

Beweis:Es gilt C1 4αT C2 nach Definition gdw.Φ(C1) 4Φ(T) Φ(C2) gilt. Da T und

damit Φ(T) generativ ist, existiertΦ(C2) ↓ Φ(T). Damit gilt Φ(C1) 4Φ(T) Φ(C2)gdw.Φ(C1) 6 Φ(C2) ↓Φ(T) nach Proposition 6.1.2. Nach Gleichung 7.9 istΦ(C1) 6

Φ(C2) ↓Φ(T) aquivalent zuΦ(C1) 6 Φ(C2 ↓α T). Es gilt also nach DefinitionΦ(C1)6

Φ(C2 ↓α T) gdw. C1 6α C2 ↓

α T. �

Ein Beispiel zur Saturierung mit Theorieklauseln, die Constraints enthalten, findetsich im nachsten Abschnitt.

7.7 Constraints

Analog zu den reellwertigen Attributen bei den propositionalen Lernverfahren konnenbei TRITOP Pradikate betrachtet werden, die Stellen der Sorter (Sorte der reellenZahlen) besitzen. In Abb. 7.5a) sieht man eine alternative Darstellung vonE1 undE2

mit dem Pradikatdist (Distanz9). Die neue quantitative Relationdist ersetzt also diequalitativen Relationend und t. Attributklauseln fur quantitative Relationen solltenConstraintsfur reellwertige Variablen enthalten konnen, die beispielsweise den Wer-tebereich einer Variablen festlegen. Neben Variablen und Constraints ausr konnenGleichheits- bzw. Ungleichheitsconstraints fur Variablen aus anderen, vonv verschie-denen Sorten auftreten.

TRITOP erzeugt in einem Vorverarbeitungsschritt einenormierte Darstellung derBeispiele, die aus einem Strukturteil und einem Constraintteil besteht. Im Struktur-teil befinden sich sog. Struktur- und Zugriffsliterale. Strukturliterale haben nur Stellender Sortev. Zugriffsliterale ordnen einem Tupel von Knotenvariablenein Tupel vonVariablen anderer Sortenfunktionalzu. Der Constraintteil umfaßt die Constraints furVariablen, die nicht zur Sortev gehoren. Um diese Zerlegung zu erreichen, werdenfur Konstanten in Beispielen Variablen eingefuhrt, und eine entsprechende Gleichung

9 Die Zahlen entsprechen nicht den tatsachlichen Abstanden zwischen Blocken in Abb. 7.1.

7.7. Constraints 145

E1 undE2:

class(x1,x2) ← d(x1,x2), t(x2,x4),s(x1,x3),s(x2,x3),s(x4,x3),s(x3,x5)class(x′1,x

′2) ← d(x′1,x

′2),d(x′2,x

′4),s(x

′1,x′3),s(x

′2,x′3),s(x

′2,x′5),s(x

′4,x′5),

t(x′3,x′5),s(x

′3,x′6),s(x

′5,x′6)

a) mitdist:

class(x1,x2) ← dist(x1,x2,1.0),dist(x2,x4,0.0),s(x1,x3),s(x2,x3),s(x4,x3),s(x3,x5)class(x′1,x

′2) ← dist(x′1,x

′2,1.5),dist(x′2,x

′4,0.9),s(x′1,x

′3),s(x

′2,x′3),s(x

′2,x′5),s(x

′4,x′5),

dist(x′3,x′5,0.0),s(x′3,x

′6),s(x

′5,x′6)

b) normiert:

class(x1,x2) ← dist(x1,x2, r1),dist(x2,x4, r2),s(x1,x3),s(x2,x3),s(x4,x3),s(x3,x5),r1 = 1.0, r2 = 0.0

class(x′1,x′2) ← dist(x′1,x

′2, r3),dist(x′2,x

′4, r4),s(x′1,x

′3),s(x

′2,x′3),s(x

′2,x′5),s(x

′4,x′5),

dist(x′3,x′5, r5),s(x′3,x

′6),s(x

′5,x′6), r3 = 1.5, r4 = 0.9, r5 = 0.0

c) saturiert:

class(x1,x2) ← dist(x1,x2, r1),dist(x2,x4, r2),s(x1,x3),s(x2,x3),s(x4,x3),s(x3,x5)d(x1,x2), t(x2,x4), r1 = 1.0, r2 = 0.0

class(x′1,x′2) ← dist(x′1,x

′2, r3),dist(x′2,x

′4, r4),s(x′1,x

′3),s(x

′2,x′3),s(x

′2,x′5),s(x

′4,x′5),

dist(x′3,x′5, r5),s(x′3,x

′6),s(x

′5,x′6),d(x′1,x

′2),d(x′2,x

′4), t(x

′3,x′5),

r3 = 1.5, r4 = 0.9, r5 = 0.0

Abbildung 7.5: Darstellungen vonE1 undE2: (a) Darstellung mitdist, (b) normierte Darstel-lung mitdist, (c) Saturierung der normierten BeispieleE1 andE2.

in den Constraintteil aufgenommen. Beispielsweise wird das Literaldist(x1,x2,1.0) inE1 mit einer neuen Variablenr1 in die Konjunktiondist(x1,x2, r1), r1 = 1.0 transfor-miert. Das Zugriffsliteraldist(x1,x2, r1) wird dann in den Strukturteil aufgenommen,das Constraintr = 1.0 in den Constraintteil (s. Abb. 7.5b)). Diese normierte Formkann auch fur Attributklauseln angenommen werden, bei denen neben Gleichungenauch andere Constraints auftreten konnen.

Definition 7.7.1 (normierte Klauseln) Ein Atom a im Korper einer zulassigenBeispiel- oder Attributklausel muß zu einem der folgenden Typen gehoren.

1. EinStrukturatom10 a besitzt nur Stellen der Sortev und wird zur Beschreibung derrelationalen Struktur verwendet (z. B.s(x1,x3) in Abb. 7.5).

10 Im Prinzip kann man Strukturatome als spezielle Zugriffsatome auffassen.


2. EinZugriffsatom awie beispielsweisedist(x1,x2, r1) ordnet einem Tupel von Kno-ten ein Tupel Variablen aus vonv verschiedenen Sorten zu. Innerhalb einer Klau-sel A muß fur die Atome mit demselben Relationssymbolr gelten, daß zweiAtome nicht dasselbe Tupel von Knotenvariablen besitzen. Jede Stelle eines Zu-griffsatoms, die zu einer vonv verschiedenen Sorte gehort, soll mit einer Variablenbesetzt sein, die sonst in der Klausel nicht verwendet wird.Beispielsweise darf eineKlausel nichtdist(x1,x2, r1) unddist(x1,x2, r2) enthalten, nichtdist(x1,x2, r1) unddist(x2,x3, r1), aberdist(x1,x2, r1) unddist(x2,x1, r6).

3. Klauseln konnenConstraintsfur Variablen aus vonv verschiedenen Bereichen ent-halten (z. B.r1 = 1.0). Als Constraints fur nicht-v-Variablen sind die Gleichheit unddie Ungleichheit zu anderen Variablen oder Konstanten zugelassen. Fur Variablender Sorter sind außerdem diverse Vergleichsoperatoren zulassig (s.u.). �

Die Normierung von Beispielen bzw. Attributen bewirkt, daßeine zulassige Ge-neralisierung des Strukturteils einer Klausel, der aus Struktur- und Zugriffsatomenbesteht, trotz der Einfuhrung von Variablen, die nicht zurSortev gehoren, struktu-rell einfacher ist, d. h. ein Literal weniger besitzt, als der ursprungliche Strukturteil,s. Abschnitt 7.4. Fur den Constraintteil konnen die Bedingungen in Prop. 7.4.1 nurdurch zusatzliche Einschrankungen und bereichsspezifische Heuristiken gewahrleistetwerden (z. B. durch Einschrankung der zulassigen Constraints). Die Normierung derKlauseln wird insbesondere von TRITOPs Spezialisierungs- und Generalisierungsope-rator vorausgesetzt (ρ+ in Abschnitt 7.4,ρ− in Abschnitt 7.5.3), und durch diese ein-gehalten. Bei der Definition derα-Subsumtion (Abschnitt 7.2), bei der Berechnungvon speziellsten Generalisierungen (Abschn. 7.5), bei derEinbeziehung von Hinter-grundwissen (Abschnitt 7.6), bei der Transformation in Programme (Abschnitt 7.8),und bei der Definition von Korrektheit und Vollstandigkeit(Abschnitt 7.9) spielt dieNormierung der Klauseln keine Rolle.

Wir wollen uns nun der Saturierung und Klassifikation bei Vorhandensein vonConstraints zuwenden, die einen erweiterten Begriff derα-Subsumtion erfordern.

Beispiel 7.7.1 (Saturierung mit Constraints) Wir betrachten nun die normiertenBeispielklauseln mitdist in Abbildung 7.5b). Das AttributA1 im Baum aus Ab-bildung 7.3 α-subsumiert wederE1 noch E2, da das Literald(y1,y2) nicht ein-gebettet werden kann. Fur die Klassifikation mit dem Baum aus Abbildung 7.3kann man zusatzlich zu den Beispielen die (normalisierte)TheorieT = {(t(x,y)←dist(x,y, r6), r6 = 0.0),(d(x,y)← dist(x,y,d),d > 0.0)} betrachten und die zu klassi-fizierenden Beispiele mit ableitbaren Literale anreichern, d. h. saturieren. Zwar kannman den Korper der ersten Theorieklauselt1 = (t(x,y)← dist(x,y, r6), r6 = 0.0) in E1

einbetten und sot(x2,x4) ableiten, der Korper vont2 = (d(x,y)← dist(x,y,d),d > 0.0)laßt sich jedoch nicht inE1 einbetten, da man mitθ = {x← x1,y← x2,d← r1} dasLiteral r1 > 0.0 nicht inE1 findet, sondern die logisch speziellere Aussager1 = 1.0.Die Klassifikation muß demnach Wissen uber die Eigenschaften von reellen Zahleneinbeziehen. �

7.7. Constraints 147

(class(y1,y2)← dist(y1,y2,d),d > 0) :0→−1→ (class(y1,y2)← s(y4,y1),s(y4,y2)) :

0→+1→−

Abbildung 7.6: Ein klassentrennender Baum mitdist fur die Trainingsmenge in Abb. 7.1

In TRITOP werden Constraints – genauer die Implikation zwischen Constraintsystem– beim Testen derα-Subsumtion durch bereichspezifische Verfahren uberpruft.

Definition 7.7.2 (α-Subsumtion mit Constraints) Fur KlauselnC = (H←B,R) undC′ = (H ′← B′,R′) gilt C 6α C′, wenn(H ← B) 6α

θ (H ′← B′) gilt und fur die Cons-traintsR′θ |= Rθ. �

R′θ |= Rθ muß in einer zusatzlich gegebenen Theorie, beispielsweise der Theorie derreellen Zahlen, entschieden werden. Durch Saturierung vonE1 undE2 mit T bezuglicherweitertenα-Subsumtion erhalt man die Klauseln in Abbildung 7.5c). Die saturiertenBeispiele werden nun durch den Baum in Abb. 7.3 korrekt klassifiziert.

Beispiel 7.7.2 (Klassifikation mit Constraints) Geht man auch im Baum in Abb. 7.3vond zudist uber, so erhalt man den Baum in Abb. 7.6, den manohneSaturierung mitT mit dem erweiterten Subsumtionsbegriff zur Klassifikationverwenden kann. �

7.7.1 Der Constraintoperatorρ+

Constraints fur Variablen aus vonv verschiedenen Grundbereichen werden beim Ler-nen erstnachAbschluß der strukturellen Optimierung, d. h. nach Anwendung vonρ+

bzw. der Generalisierung derconstraintfrei berechneten Beispielteilebetrachtet. Furreellwertige Variablen sieht TRITOP Constraints der Form(x p value) und (x1 p x2)mit p∈{=,≤,<,≥,>} vor, wobeix, x1 und x2 Variablen sind undvalueeine Kon-stante. Bei TRITOP werden die Konstantenvaluebei Constraints der Formx p valueaus den Beispielen ermittelt. SeiA dazu ein Attribut mit der reellen Variablenx, und esgelteA6α

θ E fur eine Substitutionθ. Dann werden die Constraints(x ≥ xθ), (x> xθ),(x ≤ xθ), (x < xθ) (x = xθ), (x 6= xθ) zur Erweiterung vonA herangezogen. Furjedes Paar von reellwertigen Variablen inA werden ebenfalls Ungleichungen erzeugt.Der Constraintoperator heißeρc.

Als eine Besonderheit erlaubt TRITOP die Erweiterung des Strukturteils um sol-che Literale, die zwar selbst die Bewertung des Attributes nicht verbessern, aber eineoder mehrere reellwertige Variablen einfuhren, fur die ein Constraint gefunden werdenkann, das seinerseits die Attributbewertung verbessert. Diese Erweiterung der Klauselum zwei Literale auf einmal ist beispielsweise bei den Mutagenesis-Daten notwendig,da dascharge-Pradikat als reines Zugriffsliteral keine diskriminierenden Eigenschaf-ten besitzt.


Definition 7.7.3

ρc(A) = {A∪{(x≥ xθ)},A∪{(x > xθ)},

A∪{(x≤ xθ)},A∪{(x < xθ)},

A∪{(x = xθ)},A∪{(x 6= xθ)}

|∃E,c : (E,c)∈S∧A 6αθ E∧x∈V(A)}

∪ {A∪{a,(x≥ xθ)},A∪{a,(x> xθ)},

A∪{a,(x≤ xθ)},A∪{a,(x< xθ)},

A∪{a,(x= xθ)},A∪{a,(x 6= xθ)}

|∃E,c : (E,c)∈S∧A 6αθ E∧x∈V(a)∧a∈θ−1(E−θ(A))}

∪ {A∪{x1 6= x2},A∪{x1 = x2},

A∪{x1 > x2},A∪{x1≥ x2},

A∪{x1 < x2},A∪{x1≤ x2}

|x1,x2∈V(A)}

∪ {A∪{a,x1 6= x2},A∪{a,x1 = x2},

A∪{a,x1 > x2},A∪{a,x1≥ x2},

A∪{a,x1 < x2},A∪{a,x1≤ x2}

|∃E,c,θ : (E,c)∈S∧x1∈V(A)∧a∈θ−1(E−θ(A))∧x2∈V(a)} �

Die Anwendung des Operatorsρc erfolgt gemaß der Anwendung vonρ+ in Algorith-mus 7.4.1 auf die ErgebnisseAgen undAspecdes Generalisierungs- bzw. des Speziali-sierungsteils. Man erhalt so die um Constraints erweiterten AttributeAc

gen undAcspec.

Beispiel 7.7.3Wir gehen wieder von der Trainingsmenge in Abb. 7.1 aus, wobeiwir annehmen, daß die Beispiele mitdist und ohned und t reprasentiert sind. Wirnehmen außerdem an, daß das Ergebnis der Spezialisierung mit ρ die Einerklau-sel B1 ist. ρc(B1) enthalt nun u. a. die optimale KlauselAc

spec = (class(y1,y2) ←dist(y1,y2,d),d > 0), die eine Erweiterung vonB1 um zwei Literale auf einmal dar-stellt, und zur Unterteilung der Trainingsmenge verwendetwird. Auf die Darstellungder Berechnung vonAc

gen und der Rekursion wird verzichtet. �

Ein Ansatz zum Lernen von allgemeinen linearen Constraintsmit Hilfe einer Variantedes Perzeptron-Verfahrens wird in [29] beschrieben.

7.8 Baume als Programme

Binare relationale Entscheidungsbaume (ohne fehlendeAste) konnen algorithmisch inlogische Programme transformiert werden, indem fur die Testattributek-stellige neuePradikate eingefuhrt werden. Fur den Baum in Abb. 7.3 erhalt man das Programmin Abb. 7.7. Das Abarbeitungsergebnis fur das Programm unter SLDNF-Resolutiondefiniert operational die

”logische“ Semantik des binaren Entscheidungsbaumes. Die

7.8. Baume als Programme 149

D0(y1,y2,−)

D1(y1,y2,+)

A1(y1,y2) ← d(y1,y2)

A2(y1,y2) ← s(y4,y1),s(y4,y2)

D2(y1,y2,y) ← A2(y1,y2),D0(y1,y2,y)

D2(y1,y2,y) ← ¬A2(y1,y2),D1(y1,y2,y)

D(y1,y2,y) ← A1(y1,y2),D2(y1,y2,y)

D(y1,y2,y) ← ¬A1(y1,y2),D0(y1,y2,0)

Abbildung 7.7: Ein logisches Programm fur den Entscheidungsbaum in Abb. 7.3

”Klassifikation“ eines Beispiels mit dem Programm erfolgt, indem man den Korper

des Beispiels skolemisiert, d. h., indem man Variablen durch Konstanten ersetzt unddie so gewonnenen Fakten dem Programm hinzufugt. Die Klasse eines Tupels vonKonstanten wird dann durch eine Anfrage an das Programm bestimmt.

In Abb. 7.7 wird inbesondere deutlich, daß Regeln fur beideKlassen erzeugt wer-den, und daß die Abarbeitung des Programmes nur unter der Closed World Assumptionmoglich ist. D. h., das Programm stellt einen nichtmonotonen Klassifikator dar. Ent-scheidungsbaume, dieξα zur Attributauswertung verwenden, lassen sich unter Ver-wendung metalogischer Pradikate in ein Programm uberfuhren. Man kann alternativeinenξα-Entscheidungsbaum in einen binaren Entscheidungsbaum transformieren, in-dem man diejenigen Teilstrukturen der Beispiele ermittelt, die fur das mehrfache Auf-treten eines Testattributes des ursprunglichen Baums in einem Beispiel verantwortlichsind, und diese großeren Teilstrukturen zum Aufbau eines binaren Baumes verwendet.Diesen binaren Baum kann man in ein logisches Programm transformieren. Program-me wie das in Abb. 7.7 dargestellte, konnen mit Hilfe derα-SLD-Resolution abgear-beitet werden, bei der die Unifikatoren der Resolutionsschritte α-Substitutionen seinmussen.

Wie man am Programm in Abb. 7.7 sieht, erzeugt TRITOP Hilfspradikate, dieder Negation von ganzen Konjunktionen von Literalen entsprechen – eineUbersichtuber diese sog. Predicate Invention findet sich in beispielsweise in [114]. GegenuberSTRUCT und der CWS von Bain und Muggleton wird kein besonderer Mechanismuszum Lernen der Hilfspradikate benotigt. Bei TRITOP entsprechen die Hilfspradikateeinfach den konstruierten Strukturattributen, die klassifizierungsrelevante Eigenschaf-ten einer beliebigen Klasse, also auch der

”negativen“ Klasse erfassen konnen. Bei

Muggleton und Bain werden die Hilfspradikate als Ausnahmepradikate bezeichnetund sind nicht von strukturellen Eigenschaften der Gegenbeispiele abhangig, sondernvon den verwendeten Konstantenbezeichnern. Es findet also keine wirkliche Genera-lisierung der Gegenbeispiele statt. Bei STRUCT werden die Hilfspradikate in eineminterativen Verfahren aus schon gelernten Entscheidungsbaumen gebildet. Konjunk-


tive Tests, deren Einzelliterale nicht relevant sind und deshalb nicht als Tests in ei-nem Baum vorkommen, konnen auf diese Weise nicht gefunden werden. Dies ist beiTRITOP durch die generalisierende Attributberechnung moglich.

7.9 Korrektheit und Vollst andigkeit

Die Subsumtion ist eine korrekte und vollstandige Ableitungsrelation, d. h., es giltC1 6θ C2 gdw.C1 |= C2, wennC2 nicht tautologisch ist undC1 nicht selbsresolvierend.Die generalisierte Subsumtion ist eine korrekte und vollstandige Ableitungsrelation,d. h., es giltC1 4T C2 gdw. T,C1 |= C2, wennC2 nicht tautologisch ist undC1 nichtselbsresolvierend, wennC2 nicht schon ausT folgt, und wenn keine Theorieklauselin T mit dem Kopf vonC1 resolviert. Dieα-Subsumtion ist auf Grund von Satz 7.2.1eine korrekte Ableitungsrelation, d. h., ausC1 6α

θ C2 folgt C1 |=C2. Allerdings gilt bei-spielsweisep(x,y) |= p(z,z), aber nichtp(x,y) 6α p(z,z), da die erforderliche Substi-tutionθ keineα-Substitution ist – also ist dieα-Subsumtionnichtvollstandig. Wir defi-nieren deshalb im folgenden eingeschrankte Korrektheits- und Vollstandigkeitsbegriffefur unseren Ansatz.

Wir definieren zunachst den Begriff derα-Folgerung.

Definition 7.9.1 (α-Folgerung) T sei eine Theorie undC1 eine Klausel. Dann sei de-finiert: T |=α C gdw.Φ(T) |= Φ(C), wobei 6

.= als Ungleichheit interpretiert wird. �

Die α-FolgerungT |=α C kann durch Betrachtung vonα-Modellen entschieden wer-den.

Satz 7.9.1Es seiT eine Theorie undC eine Klausel. Dann giltT |=α C gdw.T |= C,wenn nurα-Modelle bei|= betrachtet werden. �

Beweis von Satz 7.9.1→. Es gelteT |=α C, d. h. nach Definition 7.9.1Φ(T) |= Φ(C).Φ(T) enthalt nur Klauseln, also geschlossene Formeln. Es seiJ ein α-Modell vonT.Nun ist zu zeigen, daßJ auch einα-Modell vonC ist.

Aus Lemma 7.6.1 folgt, daßJ ein Modell vonΦ(T) ist. Nach Voraussetzung undder Definition von|=α ist J dann aber auch ein Modell vonΦ(C). Jetzt ist noch zuzeigen, daßJ auch einα-Modell vonC ist: Dies folgt aber wieder aus Lemma 7.6.1.Beweis von Satz 7.9.1←. Es gelteT |= C fur α-Interpretationen. Es seiJ ein Modellvon Φ(T). Zu zeigen ist jetzt, daßJ auch ein Modell vonΦ(C) ist. Dazu zeigen wirzunachst, daßJ ein α-Modell vonT ist. Dies folgt aus Lemma 7.6.1. Jetzt ist noch zuzeigen, daßJ auch ein Modell vonΦ(C) ist. Dies folgt ebenfalls aus Lemma 7.6.1.�

Wir kommen nun zu einem fur dieα-Subsumtion bzw. die generalisierteα-Subsumtion angepaßte Vollstandigkeitsbegriff.

Definition 7.9.2 (Korrektheit, Vollst andigkeit) Ein Ableitungsoperator α heißeα-korrekt fur die SprachenL1 undL2, wenn ausA∈L1, B∈L2 undA`α B auchA |=α Bfolgt. Ein Ableitungsoperator heißeα-vollstandig, wenn ausA∈L1, B∈L2 undA |=α BauchA`α B folgt. �

7.10. Experimente 151

Satz 7.9.2 (Korrektheit) 6α, 4α sindα-korrekte Ableitungsrelationen. �

Beweis.Die Korrektheit folgt direkt aus der Definition 7.9.2 und derTatsache, daß6und4 korrekt Ableitungsrelationen sind (vgl. [84,54]). �

Fur dieα-Subsumtionsrelation6α kann unter bestimmten Bedingungen gezeigtwerden, daß sieα-vollstandig ist.

Proposition 7.9.1 (Vollstandigkeit von 6α) C1 sei nicht selbstresolvierend undC2

nicht tautologisch. Es gilt:C1 |=α C2 gdw.C1 6α C2. �

Beweis: Es gilt nach Definition 7.9.1:C1 |=α C2 gdw. Φ(C1) |= Φ(C2). Aus der

Vollstandigkeit von6 mit den oben genannten Bedingungen (s. z. B. [38]) folgt:Φ(C1) |= Φ(C2) gdw. Φ(C1) 6 Φ(C2). Aus der Definition von6α folgt: Φ(C1) 6

Φ(C2) gdw.C1 6α C2. �

Unter den oben genannten Bedingungen anC1,C2 undT ist 4αT eine vollstandige

Ableitungsrelation, D. h.C1 4αT C2 gdw.C1,T |=α C2. Denn dann ist auchΦ(C1) nicht

selbsresolvierend,Φ(C2) nicht tautologisch bzw. folgt nicht ausΦ(T), und es gibt inΦ(T) immer noch keine Klausel, die mit dem Kopf vonΦ(C1) resolviert. Damit folgtΦ(T),Φ(C1) |= Φ(C2), was mitΦ(T,C1) = Φ(T),Φ(C1) gerade die Definition vonT,C1 |=

α C2 ist. Bei TRITOP ist 4α vollstandig, da das Pradikatsymbolclassnur imKopf von Beispiel- und Attributklauseln enthalten sein darf.

7.10 Experimente

TRITOP wurde in ECLIPSE-Prolog implementiert. Im folgenden werden Experimentemit dieser Implementierung in den Anwendungsgebieten aus Abschnitt 5.6 (BlocksWorld, Mutagenesis, Mesh Design, Schachendspiel – Chess-Endgame-Datensatz) dar-gestellt. Fur den in Abbildung 5.5 dargestellten Blocks-World-Datensatz erzeugtTRITOP den in Abbildung 7.8 dargestellten Entscheidungsbaum, derbezuglich derdurch die Blatter induzierten Unterklassenstruktur dem INDIGO-Baum in Abb. 5.6c)entspricht. Bei Verzicht aufAgen, d. h., nur mit den AttributenAspecwird keine Klas-sentrennung erreicht. Dies liegt daran, daß aufgrund der Lokalitat der Suche die Spe-zialisierung zu fruh stoppt, d. h. nicht ausreichend komplexe Strukturen findet.Agen

wurde durch Generalisierung der Ausgangsbeispiele, d. h. ohne Berechnung von Bei-spielteilen, berechnet.

Da sich bei INDIGO mit Kontextattributen sehr gute Lernraten erzielen liesen,wurde zunachst bei TRITOP im Algorithmus 7.5.2 auf die Berechnung vonα-Generalisierungen verzichtet: Es wurde nur das beste Beispielteil in A(γ,κ) durch An-wendung vonρ− optimiert. Bei den Mesh-Daten erreichte TRITOP mit dem einge-schrankten Verfahren eine Genauigkeit von 37% (vgl. Tabelle 5.3) beiγ = 1 undκ = 1(ein Beispielteil umfaßt den 1-Kontext des klassifiziertenKnotens). Die Ergebnissefur die Mutagenesis-Daten (Mutagenesis188: 86% undMutagenesis42: 88%) findensich in der Tabelle 5.2 und wurden mit Beispielteilen beiγ = 2 und κ = 0 erzielt.Ein solches Beispielteil umfaßt gerade zwei Atome mit ihrenElementarattributen und


(class← b(y1),s(y1,y3),s(y2,y3),d(y1,y2),b(y2)) :0→ – (E−19 E−17 E−16 E−15 E−14 E−13 E−12 E−11 E−10 E−9 E−7 E−5 E−3 E−2 )1→ (class← s(y4,y1),s(y4,y2),n(y1,y2)) :

0→ + (E+28 E+

27 E+26 E+

24 E+23 E+

22 E+21 E+

20 E+6 E+

4 E+1 )

1→ (class← d(y1,y2),s(y3,y4)) :0→ – (E−18 E−8 )1→ + (E+

25)

Abbildung 7.8: Von TRITOP fur das Konzept”Tor“ (vgl. Abb. 5.5) erzeugter Baum (β = 1,

Beispiele als Beispielteile,ξα0,1)

die zwischen ihnen bestehende Bindung. Fur denMutagenesis42-Datensatz konstru-iert TRITOP bei γ = 2,κ = 0,β = 1 den Baum in Abb. 7.9. Im Gegensatz zu dem vonINDIGO gelernten Baum in Abb. 5.14 wird die Klasseactivenun durch das Vorkom-men einer Teilstruktur definiert und nicht durch das Fehlen.Man beachte, daß sich diejeweils verwendeten Tests in den Attributtypen des C-Atomsunterscheiden (21 und22).

Sowohl bei den Mesh- als auch bei den Mutagenesis-Daten konnten mit einem reinspezialisierungsbasierten Baumaufbau (TRITOP-SPEC), d. h. bei Verzicht auf die Bil-dung vonAgen, nur wesentlich schlechtere Lernraten gefunden werden (Mesh Design:32%,Mutagenesis188: 81% beiβ = 1, Mutagenesis42: 83% beiβ = 5). Insofern er-wies sich wie bei INDIGO die Bildung von Kontexten als ausschlaggebend fur die gutenLernraten. Die Lernraten von TRITOP-SPEC sind jedoch fur jeden der drei Datensatzegenauso gut wie die des jeweils besten zum Vergleich herangezogenenILP-Verfahrens.

TRITOP-SPEC erwies sich bei der in [46] beschriebenen Erkennung vonGefaßwandzellen als geeigneter als TRITOP-GEN bzw. als die Vollversion vonTRITOP. Im Prinzip ist die Spezialisierung der Generalisierung vorzuziehen, da zumeinen keine Parameter eingestellt werden mussen und zum anderen die Attribute ver-gleichsweise klein bleiben, was sich positiv auf den Aufwand beim Lernen auswirkt.Ob jedoch die Generalisierungs- oder die Spezialisierungsstrategie zu besseren Attri-buten fuhrt, hangt von dem betrachteten Datensatz ab, so daß insgesamt die kombi-nierte Strategie von TRITOP sinnvoll erscheint.

Fur die Mutagenesis- und die Mesh-Design-Daten erwies sich die Berechnung derαLGGs als extrem aufwendig und brachte zudem keine Verbesserung der Lernraten –es genugt, wie oben dargestellt, den Generalisierungsoperatorρ− direkt, d. h. ohne vor-herige Bildung vonαLGGs, auf das bezuglich der Transinformation beste Beispielteilanzuwenden. Die Anzahl der berechneten Generalisierungenpro Paar von Beispieltei-len schwankte bei den Mesh-Daten zwischen 3 und ungefahr 150 (κ = γ = 1). Ledig-lich bei durch Einfuhrung von irrelevanten Literalen verrauschten Daten fuhrte dieα-Generalisierung zu leicht verbesserten Lernergebnissen im Vergleich zur Verwendungvon Beispielteilen ohneα-Generalisierung. Perspektivisch ist die Verwendung eineseffizienten Generalisierungsverfahrens notwendig (z. B. MATCHBOX, [97,95,99,98]).

7.11. Resumee 153

(class← one(A1,A2), type21(A2), type38(A1)) :0→ inactive1→ active

Abbildung 7.9: Entscheidungsbaum fur den DatensatzMutagenesis42: A1 ist ein speziellesC-Atom,A2 ist ein spezielles Stickstoffatom.

Bei Mutagenesis und Mesh Design sind die Lernraten von TRITOP im Vergleich zuden ILP-Lernverfahren sehr gut. Die im Vergleich zu PROGOL besseren Lernraten vonTRITOP sind darauf zuruckzufuhren, daß zumindest beimMutagenesis188-Datensatzdas Fehlen bestimmter Teilstrukturen, die also die Mutagenitat einer Substanz hem-men, klassifizierungsrelevant ist. Dies kann von PROGOL nicht gelernt werden. FOIL

ist aufgrund seiner kurzsichtigen Suchstrategie ebenfalls schlechter als TRITOP.Die Lernrate von TRITOP ist beiMutagenesis188etwa 4% schlechter als die von

INDIGO bei Verwendung der Attributauswertungξ, entspricht aber der Lernrate vonINDIGO bei Verwendung vonξ(0,1). Die Laufzeiten von TRITOP sind wesentlich hoherals die von INDIGO, was teilweise auf die sehr ineffiziente PROLOG-Implementierungvon TRITOP zuruckzufuhren ist. Im Vergleich zu INDIGO liefert TRITOP jedoch we-sentlich besser interpretierbare Baume, und die Diskretisierung reellwertiger Attributeerfolgt automatisch. Dies spielt z. B. beim Erlernen raumlicher Relationen aus Menta-len Modellen eine große Rolle, die in [29] beschrieben ist.

Fur die Chess-Endgame-Daten (s. Abschnitt 5.6.4) betragt die Klassifikationsge-nauigkeit von TRITOP 99.4%, d. h., sie ist vergleichbar mit den Ergebnissen von FOIL,L INUS und STRUCT und ungefahr 1% besser als das Ergebnis von INDIGO.

7.11 Resumee

Das Lernverfahren TRITOP basiert auf derα-Subsumtion zur Klassifikation von alsKlauseln dargestellten Beispielen. Die Attributklauselnwerden mit Hilfe von zwei un-terschiedlichen Strategien konstruiert: der Spezialisierung von allgemeinsten Klauselnund der Generalisierung von Beispielteilen. Die Spezialisierung der Klauseln besitztden Vorteil der Parameterfreiheit und der großeren Effizienz, die Generalisierung be-sitzt den Vorteil, daß auch Klauseln mit nicht diskriminierenden Literalen gebildetwerden konnen. Besitzt man entsprechendes Vorwissen uber die Art des zu lernendenKonzepts, so kann man sich fur eines der beiden Verfahren entscheiden. Verwendetman die Verfahren konkurrierend, so erganzen sich die Vorteile der beiden Verfahren,wobei man allerdings haufig einen relativ hohen Aufwand in Kauf nehmen muß.

TRITOP besitzt im Vergleich zu Verfahren der ILP ein breites Spektrum von Lei-stungsmerkmalen: nichtmonotone Klassifikation, einheitliche Behandlung der Klas-sen, Erzeugung komplexer Strukturmerkmale, Endlichkeit des Suchraums, Lernbarkeitvon Multiplizitaten, Kombination von Lernstrategien. F¨ur die untersuchten Datensatze


ist die erzielte Genauigkeit besser als die der zum Vergleich herangezogenen Systemeoder genauso gut.

Zum Vergleich von TRITOP und INDIGO sei auf das Schlußkapitel verwiesen. Wirwollen uns im folgenden Kapitel der Konstruktion von Klassenprototypen aus den vonTRITOP gelernten Entscheidungsbaumen widmen.

Kapitel 8

Konstruktion von Klassenprototypen

Beim Erlernen eines Klassifikators aus einer Trainingsmenge entsteht normalerweiseeine Hypothese, die eine der beiden im folgenden beschriebenen Charakteristiken be-sitzt.Klassentrennende Klassifikatorenbestimmen die Klassenzugehorigkeit eines zuklassifizierenden Objektes anhand von Unterschieden zwischen den einzelnen Klas-sen. Typische Beispiele sind Entscheidungsbaume, die normalerweise nur solche Attri-bute enthalten, die zur Unterteilung der Trainingsmenge inklassenreine Untermengenbeitragen.

Charakteristische Klassenbeschreibungenstellen den zweiten Typ von Klassifika-toren dar. Solche Klassenbeschreibungen beinhalten Wissen uber die gemeinsamenEigenschaften von Objekten einer Klasse und sind besondersnutzlich fur den auto-matisierten Wissenserwerb, z. B. beim KDD (Knowledge Discovery in Databases),oder fur die Interaktion mit dem Benutzer, der eine Erklarung der gelernten Hypothesewunscht. Eine solche Klassenbeschreibung kann z. B. die Angabe von prototypischenExemplaren ([93]) umfassen, die entweder Teil der ursprunglichen Trainingsmengesein konnen, oder aber aus diesen generierte Beschreibungen – in Merkmalsraumenbeispielsweise Mittelwerte.

Es gibt auch Ansatze beim Lernen, die man keiner der beiden Kategorien eindeutigzuordnen kann. Bei der einfachen Methode der nachsten Nachbarn wird beispielswei-se uberhaupt keine intensionale Hypothese erzeugt, sondern die Trainingsmenge un-verandert zur Klassifikation eines neuen Objektes herangezogen. Da die Bestimmungdes Abstands zu allen Objekten der Trainingsmenge aber haufig zu aufwendig, undder Speicheraufwand zu groß ist, ist man auch hier haufig an der Bestimmung vonbesonders typischen Exemplaren interessiert, die jeweilseinen Teil der ursprunglichenTrainingsbeispiele reprasentieren und bei der Klassifikation ersetzen konnen.

Im folgenden soll der Unterschied zwischen Klassenbeschreibungen und Klassen-trennungen fur den Fall relationaler Beschreibungen an einem einfachen Beispiel ver-deutlicht werden. Wir wollen annehmen, daß das Konzept

”aromatische Substanz“ aus

einer Trainingsmenge gelernt werden soll, die strukturelle Beschreibungen chemischerVerbindungen enthalt. Jede Verbindung sei durch ihre Molekulstruktur, d. h. durch ih-re Atome und deren Bindungen gegeben, vgl. Abschnitt 5.6.2.Zusatzlich sei zu jederStruktur ihre Klasse –

”aromatisch“ oder

”nicht aromatisch“ – gegeben. Die Klasse

einer chemischen Substanz laßt sich in trivialer Weise dadurch ermitteln, daß manuberpruft, ob die Beschreibung der Substanz eine aromatische Bindung enthalt – furaromatische Bindungen soll wie bei den Mutagenesis-Daten ein besonderer Bindungs-typ in der Beschreibung vorgesehen sein. Offensichtlich ist die Existenz einer solchenBindung zur Unterscheidung der beiden Klassen zwar ausreichend, ergibt aber nicht

156 Kapitel 8. Konstruktion von Klassenprototypen

allzuviel Information uber aromatische Substanzen. Typischerweise enthalten aroma-tische Substanzen namlich Ringe, die meist aus funf oder sechs Kohlenstoffatomenbestehen, jedoch auch Atome anderer Elemente umfassen konnen. Solche zusatzlichenInformationen uber mogliche Ringstrukturen verbessernzwar nicht die Gute der Klas-sentrennung, konnen jedoch verwendet werden, um den Wert und die Verstandlichkeitder erlernten Hypothese wesentlich zu verbessern.

Da charakteristische Klassenbeschreibungen in vielen Fallen relativ komplex sind,werden von Lernsystemen haufig nur Klassentrennungen erlernt. Im Bereich der In-duktiven Logischen Programmierung konnen Klassenbeschreibungen beispielswei-se mithife des LGGs bestimmt werden. Beispiele hierfur stellen die Systeme GO-LEM und CILGG dar (Abschnitt 6.3). Da der LGG mehrerer Beispiele exponen-tiell mit der Anzahl der Beispiel wachst, und deshalb bezuglich der von derθ-Subsumtionsbeziehung induziertenAquivalenzrelation reduziert werden muß, verwen-den beide Systeme heuristische Einschrankungen der Hypothesensprache, um das ent-stehende Komplexitatsproblem zu bewaltigen. In den folgenden Abschnitten soll einWeg zur Konstruktion von Klassenbeschreibungen vorgestellt werden, der sich nichtauf Einschrankungen der Hypothesensprache abstutzt, sondern versucht, das Komple-xitatsproblem durch geschickte Kombination von Diskriminations- und Deskriptions-lernen in den Griff zu bekommen.

Von TRITOP wird ein klassentrennender Entscheidungsbaum konstruiert, der alskomplexe Tests Attributklauseln enthalt. Wie sich in den Experimenten gezeigt hat,sind die von TRITOP konstruierten Hypothesen auf vielen Datensatzen relativgenau.Dennoch sind die Entscheidungsbaume haufig relativ schlecht interpretierbar, so daßin einem zweiten Lernschritt der Baum um Klassenprototypenerganzt werden kann.Fur jedes Blatt des diskriminierdenden Entscheidungsbaumes wird genau ein Prototypfur die dem Blatt zugeordnete Klasse gelernt.

Die Verwendung von Entscheidungsbaumen zum Clustern wirdauch in [91] vor-geschlagen. Obwohl die Autoren erwahnen, daß man einen Entscheidungsbaum schonals eine (diskriminierende) Beschreibung der Cluster betrachten kann, geben sie keineMethode an, mit der man relationale Prototypen fur die Cluster berechnen kann. Dasvorgestellte System C0.5 kann nur die propositionalen Attribute von strukturieren Ob-jekten verwenden – bei den Mutagenesisdaten etwaLUMO und logP, die die Gesamt-struktur charakterisieren. Die relationale Struktur der Beispiele wird nicht betrachtet.Dasselbe gilt auch fur die propositionalen Systeme aus demGebiet

”Conceptual Clu-

stering“ (eineUbersicht findet sich in [36]). Das System KBG [6] verwendet dem-gegenuber einstrukturellesAhnlichkeitsmaß, um eine Konzepthierarchie aufzubauen,und ist in der Lage, generalisierte Klassenprototypen zu berechnen. Allerdings ist dasvorgeschlageneAhnlichkeitsmaß ([7]) wenig intuitiv und kann in vielen Fallen nurapproximativ durch einen numerischen Iterationsalgorithmus berechnet werden. DieAutoren ziehen zudem die potentielle Mehrdeutigkeit des relationalen Matchingpro-blems uberhaupt nicht in Betracht. Das System RIBL ([21]) verwendet ein ahnlichesAhnlichkeitsmaß wie KBG, berechnet aber keine generalisierte Prototypen, sondernverwendet dieAhnlichkeit zur abstandsbasierten Klassifikation. Da es sich bei TRITOP

157

C-Atom

C-or-Hetero-Atom

C-or-Hetero-Atom

C-AtomC-or-Hetero-Atom

H-Atom

Charge in [-0.414,-0.354]

C-Atom: A2

Charge in [-0.494,0.046}Type one-of{C21,N34}

Charge in [-0.014,0.106]Type C21

O-AtomType O40

Type O40O-Atom

Charge in [-0.414,-0.354]

Charge in [-0.496,0.098]Type one-of {O52,C26,C21,N34,S72}

Charge in [-0.056,0.187]Type one-of{C21,C26}

Charge in [-0.494,0.046}Type one-of{C21,C26,N34}

Charge in [-0.133,0.587]Type one-of {C14,C22,C10}

Type H3Charge in [0.036,0.205]

Charge in [0.786, 0.846]Type N38N-Atom: A1

Abbildung 8.1: Der Prototyp fur die Unterklasse der mutagenen Substanzen(aus [100])

um einen Ansatz des uberwachten Lernens handelt, benotigt man demgegenuberkeinAhnlichkeitsmaß zum Baumaufbau und zur Klassifikation.

Wir wollen uns nun der Berechnung vonPrototypen fur die Blatter des Baumszuwenden, d. h. fur die Unterklassen der Trainingsmenge, die durch die Blatter des ge-lernten Entscheidungsbaumes definiert werden. Der Entscheidungsbaumalgorithmusfuhrt eine Art uberwachtes Clustering einer jeden Klassein Unterklassen durch. Einenicht klassifizierungsrelevante Unterteilung einer Klasse in Unterklassen kann durchein solches Verfahren jedoch nicht erkannt werden, d. h., ein Blatt im Baum kannu. U. mehrere Unterklassen umfassen. Die gemeinsamen Teilstrukturen der Beispie-le eines Blattes konnen mit demαLGG-Algorithmus berechnet werden. JederαLGGbeschreibt einen gemeinsamen Aspekt der generalisierten Beispiele, der im GegensatzLGG relativ leicht verstandlich ist. Man kann beispielsweise die KlauselnG1 undG2

in Abb. 7.4 als Beschreibungen vonprototypischenSituationen in der Blocks Worldauffassen. Beim LGG ist das auf Grund der Mehrdeutigkeit derVariablenzuordnungin den generalisierten Klauseln nicht moglich. (Der LGG kann sogar langer als dieUrsprungsklauseln sein.) Man kann den LGG deshalb meist nicht direkt als partielleBeschreibung einer Situation z. B. in der Blocks World auffassen. Der LGG stellt einAgglomerat von charakteristischen Aspekten dar.

Da der exakteαLGG-Algorithmus in vielen Anwendungsfallen sehr aufwendig ist,wurde in dem durchgefuhrten Experiment das konnektionistische Verfahren MATCH-

158 Kapitel 8. Konstruktion von Klassenprototypen

BOX verwendet. Eine detailierte Beschreibung der theoretischen Grundlagen vonMATCHBOX findet sich in [100,97,96].

Fur denMutagenesis42-Datensatz konstruiert TRITOP den Baum in Abb. 7.9. ImMutagenesis42-Datensatz werden die Beispielef1, f5, f6, d191, f2, f4, d197und f3mit dem zweiten Blatt im Baum klassifiziert. Mit MATCHBOX erhalt man fur dieseBeispiele den Prototypen in Abb. 8.1 (aus [100]). Der Prototyp enthalt die funktio-nelle NO2-Gruppe und einen aromatischen 5-Ring mit Heteroatomen wieSauerstoff,Schwefel und Stickstoff an bestimmten Positionen. Außerdem ein zusatzliches Tripelund Constraints fur die Typen der Atome und ihre Ladungen. Dieser Prototyp ist of-fensichtlich wesentlich einfacher zu interpretieren als der ursprungliche Baum und dieentsprechende PROGOL-Klausel in (6.5).

Neben der Berechnung von Prototypen kann der dargestellte Ansatz auch zur Be-stimmung von charakteristischen Entscheidungsbaumen eingesetzt werden.

Kapitel 9

Reduktion von Strukturen

Ein Ansatz zur Komplexitatsreduktion beim Lernen, der nicht bei den Lernverfahrenansetzt, sondern bei den zum Lernen verwendeten Daten, ist die Vereinfachung (Re-duktion) bzw. Hierarchisierung der Daten mit Hilfe zu bestimmender Strukturbaustei-ne. Im folgenden soll ein Ansatz fur die Datenreduktion vorgestellt werden, der aufder in Kapitel 7 eingefuhrtenα-Subsumtion beruht.

Im Gebiet des Knowledge Discovery in Databases (KDD, z. B. [24]) ist das Be-stimmen vonAssoziationsregelneiner der am starksten untersuchten Forschungsge-genstande ([1]), da Assoziationsregeln auch aus großen Datenbanken relativ effizientgelernt werden konnen. Die Aufgabe besteht darin, Mengen von “Items” A undB zufinden, so daß die AssoziationsregelA→ B eine hohen Support und eine hohe Kon-fidenz in Bezug auf eine gegebene Menge von Beobachtungen besitzt. Eine typischeAnwendung ist die Analyse von Warenkorben, woB “leer” ist, so daß die (verein-fachte) Aufgabe darin besteht, Gruppen von Waren zu finden, die haufig zusammenverkauft werden (d. h. hoher Support).

In vielen Anwendungsgebieten, wie z. B. bei der Vorhersage der Mutagenitatgenugt die Darstellung einer Substanz durch “Items”, d. h.durch eine Menge von At-tributenwerten, nicht. Gerade chemische Substanzen habeneine inharent relationaleStruktur und konnen mit Hilfe von propositionalen Attributen nicht adaquat beschrie-ben werden. Bei der Vorhersage der Mutagenitat, die eine der am starksten untersuch-ten Anwendungen im Bereich des relationalen Lernens ist, zeigen relationale Lernver-fahren deshalb deutliche bessere Leistungen als ihre propositionalen Gegenstucke (s.auch [112]).

Bei einer Graphdarstellung der Strukturen besteht dasAquivalent einer Assoziati-onsregel aus eine Anzahl von Items, d. h. Knoten, zusammen mit den Relationen bzw.Kanten zwischen ihnen ([15]). Das Auffinden von solchen bedeutsamen Mustern istvon hochster Bedeutung fur das Verstehen eines Anwendungsgebietes, und um Struk-turen adaquat beschreiben zu konnen. Die Muster sind von allgemeinem wissenschaft-

NO2

NO2

NO2

Abbildung 9.1: 3,4,4’-Trinitrobiphenyl: Die Struktur kann wie in Abschnitt 5.6.2 dargestelltdurch eine Konjunktion von Literalen beschrieben werden.

160 Kapitel 9. Reduktion von Strukturen

7

7C

C7

7

7

7C C

C7

777

C

C C

C

CC C

7 7

1

CC

b)

2

1

N

O

O

7

7C

C7

7 1

7

7

7

C C

C7

77

7

7

C

C C

C

C

O

O

N2

2 O

O

N

211

a)

22

n7

n12 n11

n4

n3

n5

n10

n8

n9

n1

n6n2

Abbildung 9.2: a) Der Graph von 3,4,4’-Trinitrobiphenyl (ohne Atomtypen und Ladungen).b) Das zur Reduktion verwendete Muster

”Biphenyl“

lichen Interesse und konnen daruberhinaus verwendet werden, um angemessene undkurze Beschreibungen von Daten aus dem Anwendungsgebiet zufinden. Z. B. wer-den in der Chemie Bausteine wie

”Benzol“ und “Biphenyl”, oder funktionale Gruppen

wie NO2 dazu verwendet, um verstandliche und vergleichsweise kurze Bezeichner furchemische Substanzen zu finden. Ein Beispiel aus dem Mutagenesis-Datensatz ist dieSubstanz mit dem Bezeichner

”3,4,4’-Trinitrobiphenyl“, die in Abb. 9.1 dargestellt ist.

Die Struktur der Substanz kann wie in Abschnitt 5.6.2 dargestellt durch eine Konjunk-tion von Literalen beschrieben und als Graph aufgefaßt werden, vgl. Abb. 9.2a). Aufdie Darstellung und Reprasentation der Wasserstoffatomewurde verzichtet. Zur Defi-nition des vergleichsweise kurzen Namens der Substanz wurde das Muster

”Biphenyl“

verwendet, dessen Struktur in Abb. 9.2b) als Graph dargestellt ist.

Fur relationale Lernverfahren ist eine moglichst kompakte Darstellung der Da-ten wichtig, da die Komplexitat der meisten Lernverfahren– inklusive INDIGO undTRITOP – exponentiell von strukturellen Komplexitatsmerkmalenwie der Anzahl derKnoten und Kanten abhangt.

Im folgenden soll die Frage diskutiert werden, wie Muster, die zurReduktionvonkomplexen Strukturen nutzlich sind, automatisch aus einer gegebenen Trainingsmengeerzeugt werden konnen. Diese Fragestellung ist weiterreichend als die in [15] unter-suchte, wo das spezialisierungsbasierte Verfahren WARMR dazu verwendet wird, umhaufigvorkommende Muster zu erzeugen, die zum Aufbau von Klassifikationsregeln

161

2O

2

2N

2O

O

1

11

N2

O

N2O

Obiphenyl

Abbildung 9.3: Reduktion von 3,4,4’-Trinitrobiphenyl mit”Informationsverlust“: Das Ergeb-

nis ist als Graph dargestellt. Die beiden verbundenen Ringewurden mit demMuster

”Biphenyl“ zu einem mitbiphenylmarkierten Knoten kontrahiert. Die

Information uber die Stellung der NO2-Gruppen zueinandergeht verloren.

verwendet werden konnen. Im Unterschied zu [15] und auch zu[128], schlagen wireinengeneralisierungsbasiertenAnsatz zur Erzeugung der Muster vor, der komplexeMusterP mit Knotenm1, . . . ,mk generiert, die zur Reduktion von Strukturen verwen-det werden konnen. Seif ein Monomorphismus (eineα-Substitution), der ein MusterP in eine StrukturG einbettet, d. h.f : P→G bzw.(←P) 6α

f (←G) (=: P6αθ G). Die

grundlegende Idee der Reduktion besteht darin, das Bildf (P) in G durch eine weni-ger komplexe StrukturSzu ersetzen, so daß die ursprungliche Struktur vonG – oderzumindest eine isomorphe Struktur – aus der reduzierten StrukturG− f (P)+Srekon-struiert werden kann, wobei die Operationen

”+“ und

”−“ geeignet definiert werden

mussen.

Man kann f (P) nicht unbedingt auf einen Knoten zusammenziehen, da es furdiezu lernende Klassifikation relevant sein kann, wief (P) mit der Reststruktur verbundenist. In Abb 9.3 ist die so kontrahierte Form von 3,4,4’-Trinitrobiphenyl zu sehen, wo-bei das Muster Biphenyl verwendet wurde: Man sieht der reduzierten Struktur nichtmehr an, wie die drei NO2-Gruppen mit dem Doppelring verbunden sind. Die Stel-lung solcher funktionalen Gruppen zueinander ist aber haufig eine wesentlich Einfluß-große fur das chemische bzw. biochemische Verhalten einer Substanz. Deshalb sollteman zumindestRandknotenvon f (P) in die ReststrukturS aufnehmen bzw. dort re-prasentieren.Uber die Randknoten istf (P) mit der ubrigen Struktur vonG verbunden.Knoten, die keine Randknoten vonf (P) sind, sollen innere Knoten vonf (P) heißen.Im chemischen Bezeichner

”3,4,4’-Trinitrobiphenyl“ wird die Stellung der Nitrogrup-

pen dadurch reprasentiert, daß die Atomnummern 3, 4, und 4′ angegeben werden. Die-ses Verfahren beruht auf einer normierten Numerierung der Kohlenstoffatome auf demDoppelring, die anwendungsspezifisch und deshalb nicht verallgemeinerbar ist.

Es gibt zwei prinzipielle Moglichkeiten zur Reduktion. Die erste besteht darin,daß manf (P) in G durch ein Literalp(n1, . . . ,nk) ersetzt, das gewissermaßen einegerichtet Hyperkantefur die Knotenn1 = f (m1), . . . ,nk = f (mk) in f (P) darstellt.Die Anordnung der Knotenn1, . . . ,nk erlaubt die Rekonstruktion des Monomorphis-mus f , und damit der ursprunglichen Struktur. In der in Abb. 9.4 skizzierten redu-zierten Beschreibung der Substanz 3,4,4’-Trinitrobiphenyl wurden diejenigen Litera-


12

2

O

O

Nn8

1

2N

O

2O

n7

2O

O

n1

N21 biphenyl(n1,...,n12)

Abbildung 9.4: Reduktion von 3,4,4’-Trinitrobiphenyl mit neuem Literalbiphe-nyl(n1,. . . ,n12)

le, die die Unterstruktur beschreiben, welche dem Muster entspricht, durch das Literalbiphenyl(n1, . . . ,n12) ersetzt. Die restliche Strukturbeschreibung ist durch diejenigenLiterale gegeben, die die drei in Abb. 9.2 auftretenden Nitrogruppen beschreiben. DerZusammenhang zwischen dem neuen Literal und der Reststruktur wird durch die ge-meinsame Verwendung der Knotenbezeichnern1,n7 undn8 hergestellt.

Die zweite Moglichkeit zur Reduktion besteht darin, eineSchnittstellenstrukturW ⊆ f (P) (auch Interfacestruktur) zu bestimmen, die man spater dazu verwendenkann, die MusterstrukturP wieder in die reduzierte Struktur einzufugen, ohnef zuspeichern. Zusatzlich muß eine ungerichtete Hyperkante geschrieben alsp{ni1, . . . ,ni l}fur die Knoten{ni1, . . . ,ni l} ⊆ {n1, . . . ,nk} vonW eingefuhrt werden, s. Abb. 9.5. DerZusammenhang zwischen SchnittstellenstrukturW, der Reststruktur sowie der unge-richteten Hyperkante wird wieder uber die gemeinsame Verwendung der Knotenbe-zeichner hergestellt.

Eine zusatzliche Bedingung fur die Reduktion entsteht aus der Tatsache, daß diereduzierten Strukturen zum Lernen verwendet werden sollen. Dies bedeutet, daß un-terschiedliche aber isomorphe Strukturen zu wieder isomorphen Strukturen reduziertwerden sollen, um die Vergleichbarkeit der Strukturen nicht zu verlieren. WennPsymmetrisch ist, also nichttriviale Automorphismenβ : P→ P besitzt, so muß mandeshalb bei der ersten Moglichkeit der Reduktion fur jedes β eine gerichtete Hy-perkantep(β(n1), . . . ,β(nk)) einfugen, was dazu fuhren kann, daß die so reduzierteStruktur letztendlich komplexer ist als die Originalstruktur. Fur 3,4,4’-Trinitrobiphenylmussen deshalb außerbiphenyl(n1, . . . ,n12) 15 zusatzliche Hyperkanten eingefugtwerden. Wenn man eine InterfacestrukturW zusammen mit der ungerichtete Hyper-kantebiphenyl{n1, . . . ,n8} verwendet, so genugt eine einzelne Hyperkante. Nichttri-viale Automorphismen fuhren bei geeigneter Wahl der Schnittstellenstruktur zu einerzu G isomorphen Rekonstruktion.

In [50] wurde der zweite Ansatz (ungerichtete Hyperkante) experimentell undtheoretisch untersucht. Der Schwerpunkt lag auf der Formulierung eines Kriteriumszur Bewertung der Gute eine Struktur, d. h. ihrer Reduzierfahigkeit, und auf der Gene-

163

12

2

O

O

Nn8

1

2N

O

2O

n7

1

2

2 N

O

O

n1

n2 n3 n6

+ biphenyl{n1,...,n8}

n4 n5

77

7 77

7

1

Abbildung 9.5: Reduktion von 3,4,4’-Trinitrobiphenyl mit Schnittstellenstruktur und einereinzelnen ungerichteten

”Hyperkante“. Im Vergleich zu Abbildung 9.4 sind

die inneren Knotenn9-n12 nicht mehr reprasentiert.

rierung der Muster mit Hilfe eines schnellen Verfahrens zumGraphmatching. Das dortbeschriebene heuristische Suchverfahren kann auch zur Generierung von Mustern furden ersten Ansatz zur Reduktion verwendet werden, und lieferte beispielsweise denGraphen in Abb. 9.6, der eine chemisch plausible und haufig vorkommende Teilstruk-tur von aromatischen Substanzen darstellt. Wir wollen uns in dieser Arbeit der erstenAlternative zur Reduktion zuwenden, die den Vorteil hat, daß leichter interpretierbareReststrukturen erzeugt werden, und daß die schwer zu bestimmenden Interfacestrukturnicht benotigt werden.

Ein Muster P sei als Konjunktion von Literalen gegeben zusammen mit demPradikatp(v1, . . . ,vn) fur die relevanten Randknoten(v1, . . . ,vn). Die relevanten Rand-knoten vonP sind diejenigen Knoten uber dieP in der gegebenen Trainingsmen-ge mit der jeweiligen Reststruktur verbunden ist – fur einen Randknotenv von Pgibt es dann ein BeispielG und eine Einbettungf , so daßf (v) ein Randknoten vonf (P) ist. Es kann vorkommen, daß dies alle Knoten vonP sind. Kommt ein MusterP mit unterschiedlichen Mengen von Randknoten vor, so kann jedes Paar bestehendausP und p(v1, . . . ,vn) mit den jeweiligen Randknoten(v1, . . . ,vn) alseigenstandigesMusteraufgefaßt werden. Wenn zunachst nurP gegeben ist, so konnen die relevan-ten Pradikatep(v1, . . . ,vn) leicht automatisch aus der gegebenen Trainingsmenge be-stimmt werden.

Es sei nun eine MengeM unterschiedlicher Muster mit den zugehorigen Pradikatengegeben. Es ist

Θ = {(θ,P, p(v1, . . . ,vn)) |(P, p(v1, . . . ,vn))∈M∧P 6αθ G} (9.1)

die Menge der Vorkommnisse von Mustern ausM in der zu reduzierenden StrukturG.Dann ist offensichtlichG− = {θ(P) |(θ,P, p(v1, . . . ,vn))∈Θ} gerade das, was ausGgeloscht werden kann, undG+ = {p(v1θ, . . . ,vnθ) |(θ,P, p(v1, . . . ,vn))∈Θ} das, waseingefugt werden muß. Diereduzierte Strukturergibt sich zu

Gr = G−G−∪G+ .


Will man nur die reduzierten Daten zusammen mit den Mustern speichern, odermochte man wahrend des Lernprozesses die Muster wieder indie reduzierte Struk-tur einfugen, so ist die Fragestellung der Rekonstruktionder ursprunglichen aus derreduzierten Struktur von Bedeutung. Die Rekonstruktion der Ursprungsstruktur kannprinzipiell erfolgen, indem man die Rollen vonP und p(v1, . . . ,vn) einfach vertauscht,d. h., p(v1, . . . ,vn) wird zum zu ersetzenden Muster undP soll eingesetzt werden. EinProblem bei der Rekonstruktion stellen die inneren Knoten von P dann dar, wenn sie,um eine weitere Reduktion der Komplexitat der Struktur zu erreichen, in der Argu-mentlistev1, . . . ,vn nicht reprasentiert werden. Es kann dann fur die Rekonstruktionnotwendig sein, die inneren Knoten verschiedener Wiedereinsetzungen von Musternzu identifizieren.

type40, O

7

7 C C

C

CC

C

71

1

1 1

71type22 type38, N

type40, O2

27

7 1

Abbildung 9.6: Mit dem in [50] beschriebenen Suchverfahren generiertes Muster

Mit dem dargestellten Verfahren konnen relationale Datensatze beim Lernen mitHilfe automatisch erzeugter Muster bezuglich ihrer strukturellen Komplexitat verein-facht werden. Die Muster werden durch (klassenunabhangige) Generalisierung vonBeispielen in einem Trainingsdatensatz so erzeugt, daß sieeine moglichst gute Reduk-tion der Beispiele im eigentlichen Lerndatensatz erlauben. In den Beispielstrukturenwerden die Muster durch eine Hyperkante bzw. ein Literal ersetzt, das den Typ und dieRandknoten des Musters identifiziert. Die Hyperkante erlaubt die eindeutige Rekon-struktion der Ursprungsstruktur, d. h., diese ist durch ihre reduzierte Form eindeutigreprasentiert. Isomorphe Strukturen werden dabei auf isomorphe reduzierte Strukturenabgebildet – eine Eigenschaft, die fur die Anwendung der Datenreduktion fur Lernver-fahren von Bedeutung ist.

Kapitel 10

Zusammenfassung und Ausblick

In dieser Arbeit wurden die graphbasierten Begriffslernverfahren INDIGO und TRITOP

vorgestellt und experimentell untersucht. Im folgenden sollen die wesentlichen Fra-gestellungen und Resultate der Arbeit zusammengefaßt und ein Ausblick auf wei-terfuhrende Arbeiten gegeben werden.

Bei INDIGO wird die Klassifikation von Graphen bzw. von Knoten und Kantenin Graphen betrachtet (kontextabhangige Klassifikation). Die wesentliche Idee vonINDIGO besteht in der Transformation der Trainingsbeispiele in eine isomorphieinva-riante Darstellung durch Merkmalsvektoren. Zur Transformation werden aus der gege-benen Trainingsmenge Strukturattribute (Norm-, Pfad-, und Polynomialattribute) kon-struiert und zur Beschreibung der Trainingsbeispiele verwendet. Bei Verwendung vonNormattributen wird der Graph durch Anwendung des Verfahrens von Weisfeiler ineine Menge normierter Darstellungen uberfuhrt, aus denen eine isomorphieinvarianteMenge von Merkmalsvektoren bestimmt wird. Bei Verwendung von Polynomialattri-buten wird der Graph durch die Anzahl der Knoten bzw. Kanten beschrieben, die dendurch das Polynomialattribut spezifizierten Typ besitzen.Bei der kontextabhangigenKlassifikation von Knoten und Kanten wird zusatzlich berucksichtigt, ob ein Knotenbzw. eine Kante des Graphen mit dem klassifizierten Knoten bzw. der klassifizier-ten Kante identisch ist oder gemeinsame Knoten besitzt. Pfadattribute beschreibeneinen Graphen durch das Auftreten bestimmter Folgen von Relationssymbolen, dieWegen im Graphen entsprechen. Auch hier wird gegebenenfalls die Adjazenz einesPfades zum klassifizierten Knoten bzw. der klassifizierten Kante berucksichtigt. BeiPfad- und Polynomialattributen wird pro Beispiel jeweils ein Merkmalsvektor erzeugt,der mit den zu den Normattributen gehorenden Merkmalsvektoren kombiniert werdenkann. Die Transformation erlaubt den weitestgehenden Verzicht auf die Berechnungvon Morphismen beim Lernen und bei der Klassifikation.

Die Transformation der Graphen wird mit einem spezifisch graphentheoretischenAnsatz durchgefuhrt. Die Prinzipien der Klassifikation sind bei INDIGO deshalb we-sentlich von herkommlichen graph- und logikbasierten Verfahren verschieden, bei de-nen die Klassifikation mit Hilfe von Teilstrukturbeziehungen (mono- oder homomor-phe Grapheinbettung,θ-Subsumtion) oder Deduktion (Resolution) erfolgt. Insbeson-dere kann bei INDIGO das mehrfache Auftreten von Strukturelementen bei der Klassi-fikation berucksichtigt werden, was bei Verfahren der ILP grundsatzlich nicht moglichist, da dort die Klassifikation auf der reinen Existenz von Variablenbelegungen (bei derRegelanwendung oder Subsumtion) beruht und nicht auf der Bestimmung der Anzahlder verschiedenen moglichen Belegungen.

166 Kapitel 10. Zusammenfassung und Ausblick

Experimentell konnte anhand zweier wichtiger Datensatze(Mutagenesis, MeshDesign) nachgewiesen werden, daß es sich bei INDIGO um einen bezuglich der Klas-sifikationsgute sehr leistungsfahigen Ansatz handelt. Bei beiden Datensatzen konntensowohl mit Polynomial- als auch mit Pfadattributen hohe Lernraten erzielt werden, dieteilweise signifikant besser sind als die der zum Vergleich herangezogenen Systemevor allem aus der ILP (u. a. PROGOL und FOIL). Die Verwendung der Merkmalsmulti-plizitat fuhrte in einem Fall (Mutagenesis188) zu einer signifikanten Verbesserung derKlassifikationsgenauigkeit.

Die Grundversion von INDIGO wurde um eine Generalisierungsbeziehung zwi-schen Norm-, Pfad- und Polynomialattributen erweitert, die die Elimination von irre-levanter und redundanter struktureller Information und deshalb die Erzeugung kom-pakterer Hypothesen erlaubt. Die Vereinfachung der Attribute findet nach dem Aufbaudes Entscheidungsbaumes statt, ließe sich jedoch im Prinzip wie bei TRITOP in denBaumaufbau integrieren. Entsprechend dem Konzept der speziellsten Generalisierungbei Graphen bzw. Klauseln kann man aufbauend auf der Generalisierungsbeziehungeine speziellste Generalisierung von Strukturattributendefinieren. Allerdings gehenso die speziellen Laufzeitvorteile von INDIGO verloren, die auf dem Verzicht auf dieBerechnung von Morphismen beruhen.

In dieser Arbeit wurden die Entscheidungsbaumverfahren ID3 und CAL 3 als Lern-komponenten von INDIGO betrachtet. Naturlich laßt sich jedes beliebige propositiona-le Verfahren einbinden, sogar die Verwendung von Neuronalen Netzen ist denkbarund sollte in zukunftigen Experimenten untersucht werden. Von besonderem Inter-esse sind aufgrund der haufig guten Lernergebnisse die abstandsbasierten Verfahrenwie die Methode der nachsten Nachbarn. Da die Transformation der Beispiele nichtvon der Klassifizierung abhangt, kann sie auch innerhalb eines unuberwachten Lern-verfahrens, z. B. einem abstandsbasierten Clusterverfahren fur relationale Struktureneingesetzt werden.

Als weiterfuhrende Arbeiten wurden das Erlernen von Rekursionen ([83]), von Re-gressionsbaumen und die Einbeziehung von reellwertigen Attributen ([82]) untersucht.Mit Hilfe relationaler Regressionsbaume kann beispielsweise die Mutagenitat einerchemischen Substanz in Abhangigkeit von strukturellen Merkmalen und reellwertigenAttributen als reellwertige Zahl vorhergesagt werden. ZumLernen komplexer, rekur-siver Pradikate bzw. Funktionen scheinen logische oder funktionale Ansatze jedochbesser geeignet zu sein als ein graphentheoretischer Ansatz – siehe hierzu beispiels-weise [102].

Der neben INDIGO zweite untersuchte Ansatz ist das hybride Entscheidungsbaum-verfahren TRITOP. Die Klassifikation von TRITOP beruht auf dem Prinzip derα-Subsumtion, einer Anpassung des Konzepts des Monomorphismus fur die Logik. Dervon TRITOP aufgebaute Entscheidungsbaum enthalt Testklauseln, diemit Hilfe derα-Subsumtion in das zu klassifizierende Beispiel eingebettetwerden. Bei TRITOP kannwie bei INDIGO die Multiplizitat als die Anzahl der moglichen Einbettungen einesAttributs bei der Klassifikation berucksichtigt werden. Die Verwendung einer Klau-

167

selreprasentation fur Beispiele und Attribute erlaubt die Verwendung von mehr alszweistelligen Relationen und das Erlernen von mehr als zweistelligen Konzepten.

Der Entscheidungsbaum wird mit Hilfe eines Top-Down-Verfahrens gebildet, des-sen wesentlicher Aspekt die Konstruktion von geeigneten Attributklauseln ist. DasLernverfahren TRITOP ist die Kombination eines (rein) spezialisierungsbasierten An-satzes (TRITOP-SPEC) und eines generalisierungsbasierten Ansatzes (TRITOP-GEN)zur Baumaufbau. Die beiden Verfahren konnen sowohl einzeln als auch kombiniertverwendet werden. Bei TRITOP-SPEC erfolgt die Konstruktion geeigneter Attribut-klauseln durch Spezialisierung von allgemeinsten Klauseln, wahrend bei TRITOP-GEN

Attributklauseln durch Generalisierung von Beispielen erzeugt werden. Es wurde einneues Verfahren zur Berechnung von speziellstenα-Generalisierungen (αLGGs) ausdem LGG angegeben, das auf einem Verfahren der Cliquensuchebasiert.

Durch die Verwendung derα-Subsumtion beim Lernen steht die Allgemeinheit ei-ner Beschreibung (Klausel) in Beziehung zu ihrer syntaktischen Komplexitat. Durchdieses Prinzip ist die speziellsteα-Generalisierung einer Menge von Klauseln kurzerals die Ursprungsklauseln, und die beim Lernen zu durchsuchenden Raume moglicherTestklauseln sind endlich. Unterα-Subsumtion konnen insbesondere ideale Verfeine-rungsoperatoren definiert werden.

Das Verfahren TRITOPerwies sich auf den untersuchten Datensatzen (Mesh, Muta-genesis, Chess Endgame) als sehr leistungsfahig. Es konnte jedoch noch nicht gezeigtwerden, daß die Berechnung vonα-Generalisierungen zu einer Verbesserung der Ler-nergebnisse und nicht nur zu einer betrachtlichen Steigerung der Laufzeit fuhrt. Einheuristischer Ansatz zum Matching wie beispielsweise MATCHBOX wurde vermut-lich zu besseren Resultaten fuhren. Neben den in dieser Arbeit dargestellten Anwen-dungsgebieten konnte TRITOP außerdem erfolgreich fur das Erlernen der operationa-len Semantik von Aktionsverben aus Situationspaaren ([65]) und fur die Induktion vonraumlichen Relationen in Mentalen Modellen eingesetzt werden ([29]).

Neben seiner Eignung als Lernsystem erlaubte TRITOP vor allem den Vergleichder Eigenschaften von graphbasierten und logikbasierten Ansatzen zum Lernen.TRITOP profitierte zum einen von der Aufwandsreduktion durch Verwendung vonα-Subsumtion (als einer Art logischem Morphismus), zum anderen von der Moglichkeit,einen semantisch fundierten Ansatz zur Einbeziehung von Bereichstheorien und zumLernen von Constraints zu entwickeln, d. h. von der Einbeziehung von Resultaten undTechniken aus der Induktiven Logischen Programmierung.

Wie INDIGO kann TRITOP fur das Lernen von Regressionsbaumen und Rekur-sionen erweitert werden. Da man auf die Belegung der reellwertigen Variablen derAttribute bei der Klassifikation zugreifen kann, besteht sogar die Moglichkeit zur li-nearen Regression. Da TRITOP keine expliziten Merkmalsvektoren erzeugt, konnendiese nicht wie bei INDIGO direkt zum Clustern verwendet werden. Allerdings kannman mit Hilfe der Große vonkomplexestenα-Generalisierungen ein Abstandsmaß furklassifizierte Strukturen definieren (s. [65]).

Nach dem Lesen dieser Arbeit stellt sich naturlich die Frage, fur welches der bei-den Verfahren – INDIGO oder TRITOP – man sich bei einer gegebenen Lernaufgabe

168 Kapitel 10. Zusammenfassung und Ausblick

entscheiden soll. Fur INDIGO sollte man sich entscheiden, wenn man ein schnellesLern- und Klassifikationsverfahren wunscht, und bereit ist, gegebenenfalls zusatzlicheArbeit in die Interpretation der Attribute und Entscheidungsbaume zu stecken, etwadurch Konstruktion von Prototypen. INDIGO ist vor allem fur Klassenbildungen ge-eignet, die relativ kleine Tests und deshalb eine niedrige Kontexttiefe erfordern, d. h.bei eher

”lokal“ definierten Konzepten. TRITOP besitzt den Vorteil der geeigneteren

Erzeugung auch von komplexen Tests, die strukturell den gegebenen Daten entspre-chen und deshalb vergleichsweise einfach zu interpretieren sind. TRITOP ist in derLage, relativ komplexe Constraints zu erzeugen (s. hierzu auch [29]) und ist deshalbbei Lernproblemen mit reellwertigen Attributen bzw. Pradikatsstellen vorzuziehen.TRITOP besitzt einen hoheren Laufzeitaufwand als INDIGO, verbraucht aber u. U. we-niger Speicherplatz als dieses, da bei INDIGO zumindest in der derzeitigen Version alleMerkmalsvektoren komplett erzeugt und gespeichert werden. Hier ist noch Raum furVerbesserungen des Verfahrens.

Neben den beiden Lernverfahren wurde in dieser Arbeit ein Ansatz zur Generie-rung von Prototypen vorgestellt, mit dem aus den von INDIGO oder TRITOP gene-rierten klassendiskriminierden Entscheidungsbaumen prototypische Klassenbeschrei-bungen fur die Trainingsmenge generiert werden konnen. Die Prototypen werden alsgemeinsame Teilstrukturen der Beispiele in jedem Blatt desEntscheidungsbaumes ge-bildet. In dieser Arbeit wurde ein konnektionistisches Verfahren zur effizienten, appro-ximativen Berechnung der Prototypen eingesetzt. Die von TRITOPerzeugten Entschei-dungsbaume konnen außerdem mit Hilfe deskriptiver Attribute in eine hierarchische,charakteristische Beschreibung der Klassen uberfuhrt werden. Zur Zeit laufen Experi-mente mit dem beschriebenen Prototypenansatz in verschiedenen Anwendungsberei-chen.

Schließlich wurde in dieser Arbeit ein erster Ansatz zur automatischen Generie-rung von Mustern fur die Graphreduktion vorgestellt, einer Fragestellung des Ent-deckungslernens. Es wurden die Probleme der geeigneten Generierung und Bewertungsolcher Muster, sowie der Graphreduktion und -rekonstruktion mit Hilfe der gelern-ten Muster identifiziert, und erste Ansatze zur Losung erarbeitet. Wahrend die gene-ralisierungsbasierte Erzeugung der Muster schon implementiert wurde, mussen sichzukunftige Arbeiten auf die Induktion mit den durch die Muster reduzierten Datenkonzentrieren. Vor allem bedarf das Problem der fur das Lernen besten Abstraktions-ebene einer effizienten Losung. Es konnte sich als sinnvoll erweisen, beim Lernenaus reduzierten Daten eine in den Lernprozess integrierte Expansion, d. h. Wieder-einsetzung der Teilstrukturen in die reduzierten Daten, vorzusehen, die beim Lernenim Bedarfsfall angesteuert wird. Zukunftige theoretische Arbeiten mussen die Rekon-struktion beim Vorhandensein von sog. inneren Knoten und die Erzeugung und Ver-wendung hierarchisch geordneter Muster, d. h. von mehr als zwei Abstraktionsebenen,betrachten.

Ein Fazit dieser Arbeit besteht darin, daß die Verwendung spezifisch graphentheo-retischer Ansatze und Methoden zu Lernverfahren fuhrt, die bezuglich Genauigkeitund Aufwand mit bestehenden, z. B. den logischen Verfahren der ILP konkurrieren

169

konnen und bei bestimmten Anwendungen sogar leistungsfahiger sind als diese. Diegraphentheoretische Sichtweise fuhrt zu neuen Prinzipien der Klassifikation. Die gra-phentheoretischen Varianten wichtiger Techniken des Lernens besitzen oft vergleichs-weise gunstige Eigenschaften und liegen haufig naher an der menschlichen Intuitionals ihre logischen Verwandten.

Anhang A

Notationen

A := B A wird definiert durchBe∈M e ist Element der MengeMM = {e|B(e)} Definition einer MengeM1⊆M2 M1 ist Teilmenge vonM2

M1−M2 M1 ohneM2 (nicht unbedingtM2⊆M1)M1∪M2 VereinigungM1∩M2 SchnittM1×M2 Kreuzproduktχ charakteristische Funktion (auch bei Mehrfachmengen)‖M‖ Kardinalitat vonMS= ∑r∈S′ αr r Darstellung einer MehrfachmengeM/∼ Partitionierung vonM nach derAquivalenzrelation∼M/ f Partitionierung vonM nach der FunktionfΠ1≤Π2 die PartitionΠ1 ist feiner alsΠ2

Q ,R ,N ,Z,B Die Mengen der rationalen, reellen, naturlichen bzw.ganzen Zahlen und boolsche Werte

(ai)1≤i≤I , (ai)i∈I FolgeA = (ai, j)1≤i≤I ,1≤i≤J MatrixA(i, j) Elementai, j der MatrixAf = {v1 7→ f1, . . . ,vn 7→ fn} die elementweise Defintion der Funktionf : f (vi) = fif |D Einschrankung der Funktionf auf DR|D Einschrankung der RelationR aufDf : G−→G′ f ist ein Morphismus von StrukturG nachG′

f : D−→W die Funktionf ist eine totale Funktion vonD nachWimg f Wdom f Df : D↔W die Funktionf ist eine Bijektion vonD nachWf (y)(x) Anwendung der Funktionf (y) aufxf−1 die Inverse einer bijektiven Funktionf↑ undefiniert

171

Pn die Menge allern×n-PermutationsmatrizenAT die Transponierte einer MatrixRT die zuRkonverse Relationa ./ b die Konkatenation der Vektorena undbλx.a eine anonyme Funktion mitx 7→ a(x)M∗ Worte uberM[x : b1→ d1, . . . ,bn→ dn] Entscheidungsbaum mit Attributx, Attributwerten

b1, . . . ,bn und Unterbaumend1, . . . ,dn

D/n Indizierung eines Baumes durch eine Folge von ZahlenD〈n⇐ D′〉 Ersetzung eines Unterbaumsi ·n KonkatenationV(G) Knoten eines Graphen oder einer Struktur und Variablen

einer Formelα Extension eines Graphen und Typfunktion∨ Superimposition◦ Produkt≈ Aquivalenz von Entscheidungsbaumen und Isomorphie

von Graphen∀ ,∃ Quantoren¬ ,∧,∨,↔,→,← logische Junktoren|= Folgerung� leere Klausel, Widerspruch` AbleitungM(P) Minimales Herbrand-Modell6 Subsumtion≡ Aquivalenz bezuglich der Subsumtion4 Generalisierte SubsumtionωI ,β(F)∈{1,0} Wahrheitswert(C1 ↓ T) SaturierungΦ(C) um Ungleichungen erweiterte Formel

Anhang B

Tests fur zwei normalverteilte Meßreihen mitunbekannten Mittelwerten und Varianzen

Es seien zwei mitN(µ1,σ21) und N(µ2,σ2

2) normalverteilte Meßreihenx1,1, . . . ,x1,n1

undx1,1, . . . ,x1,n2 gegeben mit unbekannten und ungleichen Varianzenσ21 undσ2

2. Essoll nun einα-Test uber die Differenzµ1−µ2 durchgefuhrt werden. Dazu seien dieHypothesen

H01 : µ1−µ2≤ d gegen H11 : µ1−µ2 > dH02 : µ1−µ2≥ d gegen H12 : µ1−µ2 < dH03 : µ1−µ2 = d gegen H13 : µ1−µ2 6= d

gegeben. Nach [39] (Seite 511 ff.) ist die standardisierte Zufallsvariable mit Realisati-on

t =x1− x2− (µ1−µ2)

√s21

n1+

s22

n2

(B.1)

approximativt-verteilt mit

ν =(

s21

n1+

s22

n2)2

(s21n1

)2

n1−1 +(

s22n2

)2

n2−1

(B.2)

Freiheitsgraden1. Das (approximative)(1− α) Konfidenzintervall fur die Differenzµ1−µ2 der Mittelwerte der beiden betrachteten Grundgesamtheiten laßt sich dann ausder Gleichung

P(tν; α2≤ t ≤ tν;1−α

2) = 1−α (B.3)

bestimmen zu

[x1− x2− tν;1−α2

√

s21

n1+

s22

n2; x1− x2 + tν;1−α

2

√

s21

n1+

s22

n2] (B.4)

Unterµ1−µ2 = d ist die zu

t =x1− x2−d√

s21

n1+

s22

n2

(B.5)

gehorige Zufallsvariable ebenfalls approximativt-verteilt mit ν Freiheitsgraden. ZumKonfidenzniveauα muß man die HypotheseH01 also dann verwerfen, falls gilt

t > tν;1−α . (B.6)

1 Echt reellwertige Freiheitsgrade werden auf den nachstkleineren ganzen Wert abgerundet.

173

Die HypotheseH02 wird verworfen, falls gilt

t < tν;α . (B.7)

Die HypotheseH03 wird verworfen, falls gilt

|t|> tν;1−α2. (B.8)

Dieser Test hat gegenuber den in [16] dargestellten Tests den Vorteil, daß die Merk-malsauspragungenx1,1, . . . ,x1,n1 undx1,1, . . . ,x1,n2 nicht bekannt sein mussen, sondernnur die Stichprobengroßenn1, n2, die Stichprobenmittel ¯x1, x2 und die Stichprobenva-rianzens2

1 unds22.

Anhang C

Grundlagen der Logik

Die folgende Darstellung der Pradikatenlogik erster Ordnung folgt im wesentlichender Darstellung in [64] mit einigen Anleihen aus [109]. In den Abschnitten C.1 undC.2 werden Syntax und Semantik von pradikatenlogischen Sprachen dargestellt. InAbschnitt C.3 wird auf spezifische Eigenschaften von Klauseln und auf die Resolutioneingegangen.

C.1 Syntax

Ein sortiertes logischesAlphabetΣ besteht aus

1. VariablenVars,2. FunktionssymbolenFuns,3. PradikatsymbolenPreds,4. Sorten- bzw. TypsymbolenTypes,5. einer Typfunktionα, die jedem Funktionssymbolf ∈Funseinen Typα( f ) = τ1×

. . .× τn→ τ1, jedem Pradikatssymbolp∈Predseinen Typα(p) = τ1× . . .× τn2

und jeder Variablenv∈Varseinen Typα(v) = τ zuordnet,6. des weiteren Konnektoren¬ ,∨,∧,→,↔, Quantoren∃ ,∀ und7. Punktuationszeichen und Klammern.

Die MengeConsτ = { f | f ∈Funs∧α( f ) = τ} ⊆ Funs ist die Menge der Konstantenvom Typτ. Cons=

S

τ∈TypesConsτ ist die Menge aller Konstanten.Mit Hilfe von Variablen und Funktionssymbolen lassen sich getypte logische Ter-

me aufbauen (wir werden im folgenden die Bezeichnungen Typ und Sorte austausch-bar verwenden)

Definition C.1.1 (Terme) Die Menge aller wohlgeformten logischen TermeTerms(Σ)ist die kleinste Menge fur die gilt:

1. Eine Konstantec∈Consmit α(c) = τ ist ein Term vomErgebnistypτ(c) = τ,2. Eine Variablev∈Varsmit α(v) = τ ist ein Term vom Ergebnistypτ(v) = τ,3. Mit f ∈Funs, α( f ) = τ1× . . .×τn→ τ und Terment1, . . . , tn∈Terms(Σ) mit τ( fi) =

τi ist auchf (t1, . . . , tn)∈Terms(Σ) mit dem Ergebnistypτ( f (t1, . . . , tn)) = τ. �

1 Fur Konstanten schreiben wirα(c) = τ statt korrektα(c) = ε→ τ.2 Fur 0-stellige Pradikate schreiben wirα(p) = ε.

C.2. Semantik 175

Terme (Formeln, s. u.) ohne Variablen heißen Grundterme (-formeln). Fur einen Term(bzw. eine Formel)t seiV(t) die Menge der int vorkommenden Variablen. Terme die-nen als Argumente fur atomare Formeln, mit deren Hilfe logische Formeln aufgebautwerden. Die Menge aller logischen Formeln bildet eine pradikatenlogische Spracheerster Ordnung.

Definition C.1.2 (Formel, Atom) Die Menge aller wohlgeformten logischen For-melnFors(Σ) ist die kleinste Menge fur die gilt:

1. Mit p∈Preds, α(p) = τ1× . . .× τn und Terment1, . . . , tn∈Terms(Σ) mit τ(ti) = τi

ist das Atomp(t1, . . . , tn) eine logische Formel.2. Mit F,G∈ Fors(Σ) sind auch¬F , F ∧G, F ∨G, F → G und F ↔ G logische

Formeln.3. Mit F ∈Fors(Σ) undx∈Vars, α(x) = τ, sind auch∀x : τ F und∃x : τ F logische

Formeln.

Fors(Σ) heißt pradikatenlogische Sprache erster Ordnung. �

Der Geltungsbereicheines Quantors∀x : τ in einer Formel∀x : τ F ist F, bis aufdiejenigen Unterterme vonF, die im Geltungsbereich eines weiteren Quantors∀x : τoder∃x : τ liegen3. Fur den Geltungsbereich der Variablenx in ∃x : τ gilt entspre-chendes.x ist in ∀x : τ F bzw. in∃x : τ F einegebundene Variable. Nicht gebundeneVariablen heißenfreie Variablen. Eine FormelF ohne freie Variablen heißtgeschlos-sene Formel. Ist F nicht geschlossen, so ist∀F der (sortierte)Allabschlußund∃F derExistenzabschluß vonF. Eine variablenfreie Formel heißtGrundformel.

Das AtomA∈Atoms(Σ) kommtpositivin der FormelF = A vor. KommtA positivin W vor, so kommtA positiv inW∧V undW∨V undV→W, sowienegativin ¬A undW→V vor. Ein Literal L∈Lits(Σ) ist ein Atom oder die Negation eines Atoms. EinLiteral heißt entsprechend entweder positives oder negatives Literal. Ein GrundliteralheißtFakt.

C.2 Semantik

Die Bedeutung einer logischen Formel wird mit Hilfe von Interpretationen und Varia-blenbelegungen definiert.

Definition C.2.1 (Interpretation,Variablenbelegung) Eine InterpretationI ordnetjedem Typsymbolτ∈Typeseinen Grundbereich oder IndividuenbereichDτ 6= /0 zu.Fur die die Pradikat- und Funktionssymbole gilt:

1. Furc∈Consist I(c)∈Dτ(c).2. Fur f ∈Funsmit α( f ) = τ1× . . .× τn→ τ ist I( f )∈Dτ1× . . .×Dτn→ Dτ (n≥ 1).3. Furp∈Predsmit α(p) = ε ist I(p)∈{1,0}.

3 Da jeder Variablen ein eindeutiger Typ zugeordnet ist, ware ein Quantor∀x : τ′ oder∃x : τ′mit τ 6= τ′ nicht zulassig.

176 Anhang C. Grundlagen der Logik

4. Furp∈Predsmit α(p) = τ1× . . .× τn ist I(p)⊆ Dτ1× . . .×Dτn (n≥ 1).

Eine Variablenbelegungβ ordnet jeder Variablenv∈Varsein Objekt des Variablentypsα(v) zu, alsoβ(v)∈Dα(v). �

Mit Hilfe von Interpretation und Variablenbelegung laßt sich jedem logischen Termein Wert zuordnen.

Definition C.2.2 (Termauswertung) Es seiI eine Interpretation undβ eine Varia-blenbelegung. Dann ist die TermauswertungπI ,β definiert durch:

1. Furv∈Vars ist πI ,β(v) = β(v).2. Furc∈Consist πI ,β(c) = I(c).3. Fur f (t1, . . . , tn)∈Terms(Σ) ist πI ,β( f (t1, . . . , tn)) = I( f )(πI ,β(t1), . . . ,πI ,β(tn)). �

Mithife der Termauswertung laßt sich der Wahrheitswert einer logischen Formel fest-legen.

Definition C.2.3 (Formelauswertung, Wahrheitswert) Es seiI eine Interpretationundβ eine Variablenbelegung. Die FormelauswertungωI ,β(F)∈{1,0} einer logischenFormelF ist dann wie folgt festgelegt.

1. ωI ,β(p) = I(p)2. ωI ,β(p(t1, . . . , tn)) = 1 gdw.(πI ,β(t1), . . . ,πI ,β(tn))∈ I(p).3. ωI ,β(¬F) = 1 gdw.ωI ,β(F) = 0.4. ωI ,β(F ∧G) = 1 gdw.ωI ,β(F) = 1 undωI ,β(G) = 1.5. ωI ,β(F ∨G) = 1 gdw.ωI ,β(F) = 1 oderωI ,β(G) = 1.6. ωI ,β(F →G) = 1 gdw.ωI ,β(F) = 0 oderωI ,β(G) = 1.7. ωI ,β(F ↔G) = 1 gdw.ωI ,β(F) = ωI ,β(G).8. ωI ,β(∃x : τ F) = 1 gdw. es gibt eind∈Dτ, so daßωI ,βd

x(F) = 1. βd

x(x) ist eine

Variablenbelegung fur die giltβdx(x) = d undβd

x(y) = β(y) fur y 6= x.9. ωI ,β(∀x : τ F) = 1 gdw. fur alled∈D gilt ωI ,βd

x(F) = 1.

Ist F geschlossen, so hangt der WahrheitswertωI ,β(F) =: ωI (F) nicht von der Va-riablenbelegungβ ab. Fur nicht geschlossene Formel istωI (F) = ↑, d. h. undefiniert.

�

Eine FormelF isterfullbar in I , wennωI (∃F) = 1.F heißt gultig inI , wennωI (∀ F) =1. Andernfalls heißt die FormelF unerfullbar bzw.ungultig in I. Im folgenden werdennur geschlossene Formeln betrachtet. IstωI (F) = 1, so heißtI Modell von F , undFist erfullbar. Gilt fur alleI ωI (F) = 1 so istF eineTautologie. F heißtallgemeingultig.BesitztF kein Modell, so heißtF unerfullbar.

Eine MengeS= {F1, . . . ,Fn} von Formeln heißtkonsistentoder erfullbar, wenn esein gemeinsames ModellI fur die Formeln inSgibt. I heißt dann Modell vonS. Sheißtallgemeingultig, wenn jede Interpretation ein Modell vonS ist. Nun kann der Begriffder logischen Folgerung aus einer Formelmenge definiert werden.

C.3. Klauseln 177

Definition C.2.4 (Folgerung,|=) Es seiS eine Menge von geschlossenen FormelnundF eine geschlossene Formel.F ist eine logische Folgerung ausS– es giltS|= F –wenn jedes Modell vonSauch eines vonF ist. �

WennF eine logische Folgerung ausS= {F1, . . . ,Fn} ist, dann istF1, . . . ,Fn→F gultigund{F1, . . . ,Fn,¬F} unerfullbar bzw.inkonsistent.

Statt auf der Ebene der Semantik mochte man die Folgerbarkeit einer FormelFaus einer FormelmengeS mit Hilfe der Syntax entscheiden. Dazu benotigt man eineMenge vonlogischen Axiomen(s. z. B. [109]) und Ableitungsregeln. DieAbleitungs-regeldes Modus Ponens besagt beispielsweise, daß manG ausF undF →G ableitenkann. EntstehtG durch mehrmaliges Anwenden des Modus Ponens aus einer Formel-mengeS, so schreibt manS`MP G. Es gilt dann auchS|= G. Mit geeigneten logischenAxiomenAxgilt: wennF |= G dann auchAx,F `MP G. Der derartig definierte Hilbert-Typ-Kalkul heißtkorrektundvollstandig.

C.3 Klauseln

Definition C.3.1 (Klausel,Clauses(Σ)) Eine KlauselC∈Clauses(Σ)⊂ Fors(Σ) ist ei-ne Formel von der Form∀x1 : τ1 . . .∀xs : τs (L1∨ . . .∨Lm) mit LiteralenLi , die genaudie Variablenx1, . . . ,xs enthalten. SindAi undB j Atome (fur 1≤ i ≤ k, 1≤ j ≤ n) undL1∨ . . .∨Lm = A1∨ . . .∨Ak∨¬B1∨ . . .∨¬Bn so schreibt man eine Klausel meist alsA1, . . . ,Ak← B1, . . . ,Bn oder als Menge{A1, . . . ,Ak,¬B1, . . . ,¬Bn}. �

Ist k≤ 1, so heißtC Hornklausel. Ist k = 1, so heißtC = A← B1, . . . ,Bn definite Pro-grammklausel. A = HeadC ist derKopf von C und B1, . . . ,Bn = Body C der Rumpfvon C. Ist n = 0, so heißt eine definite ProgrammklauselEinerklausel. Eine Grund-einerklausel ist einFakt. Eine Menge definiter Programmklauseln heißtdefinites Pro-gramm. Ist k = 0, so heißtC =← B1, . . . ,Bn definites Zielmit den UnterzielenB1, . . . ,Bn. EnthaltC keine echten Funktionssymbole, so heißtC DATALOG-Klausel. Kommtjede Kopfvariable einer allgemeinen KlauselC auch im Rumpf vor, so heißtC genera-tiv. Zwei Variablen in einer Klausel heißenverbunden, wenn sie in einem gemeinsa-men Literal vorkommen, oder durch eine dritte Variable verbunden sind. Einen Klauselheißt verbunden, wenn jede Variable mit einer Kopfvariablen verbunden ist.

C.3.1 Herbrand-Interpretationen

Das Herbranduniversum umfaßt alle variablenfreien Terme,die in einer Signatur ge-bildet werden konnen.

Definition C.3.2 (Herbranduniversum, -basis) Fur eine logische SpracheL =Fors(Σ) mit mindestens einer Konstanten besteht das HerbranduniversumUL aus allenGrundtermen der Sprache. Die HerbrandbasisBL ist die Menge aller Grundatome.�

Eine Herbrand-Interpretation interpretiert jeden Funktionsterm mit sich selbst.Pradikate werden mit Relationen auf dem Herbranduniversum interpretiert.


Definition C.3.3 (Herbrand-Interpretation) Eine Herbrand-Interpretation ist eineInterpretation zum GrundbereichD = UL, fur die gilt:

1. Furc∈Consist I(c) = c.2. Fur f ∈Funsist I( f ) definiert durchI( f )(t1, . . . , tn) = f (t1, . . . , tn) mit ti∈UL.

Pradikatssymbole werden durch Relationen aufUL interpretiert. �

Analog ist ein Herbrand-Modell einer FormelmengeSeine Herbrand-Interpretation furS, die ein Modell vonSist. Man kann ein Herbrand-ModellI mit derjenigen Teilmengeder Herbrandbasis identifizieren, die gerade die inI wahren Atome enthalt. Wichtigsind die folgenden Aussagen ([64]).

Proposition C.3.1 (Eigenschaften von Klauseln)

1. Besitzt eine MengeS von Klauseln ein Modell, so besitzt sie auch ein Herbrand-Modell.

2. BesitztSkein Herbrand-Modell, so istSunerfullbar. �

Fur definite Programme genugt es, das minimale Herbrand-Modell zu betrachten,wie die folgende Proposition zeigt.

Proposition C.3.2 (minimales Herbrand-Modell) Ein definites ProgrammP isterfullbar. Es sei(M j) j∈J die Familie aller Modelle vonP. Dann ist auch

T

j∈J M j =:M(P) ein Modell vonP und es gilt außerdemM(P) = {A|A∈BP∧P |= A}. M(P) istdas minimale Herbrand-Modell vonP. �

C.3.2 Substitutionen

Substitutionen ersetzen Variablen in Termen oder Formeln.

Definition C.3.4 (Substitution) Eine Substitution ist eine endliche Mengeσ = {v1←t1, . . . ,vn← tn} mit verschiedenen Variablenvi und beliebigen Termenti vom passen-den Typ. Fur einen Termt bildet manσ(t) = tσ, indem man jedes Vorkommen vonvi

(parallel) durchti ersetzt4. �

Es seiV eine Menge von Variablen. Giltσ(x)∈Varsfur jedesx∈V, undσ(x) 6= σ(y)fur x 6= y, so heißtσ Variablenumbenennungoderalphabetische Substitutionbezuglichder MengeV. Fur σ = {v1← t1, . . . ,vn← tn} und θ = {vi1 ← r1, . . . ,vi l ← r l ,u1←s1, . . . ,um← sm} mit ∀ i, j ui 6= v j ist die Kompositionσθ = {v1 ← t1θ, . . . ,vn ←tnθ,u1← s1, . . . ,um← sm} definiert.

Durch Anwendung von geeigneten Substitutionen kann man unterschiedliche Ter-mesundt syntaktisch gleich machen.

Definition C.3.5 (Unifikation, mgu)

4 Die durchσ definierte Funktion arbeitet also auf allen Variablen inVars.

C.3. Klauseln 179

1. Zwei Termes undt heißen unifizierbar, wenn es eine Substitutionσ gibt mit sσ =tσ.

2. σ heißt allgemeinster Unifikator (mgu), wenn es fur jeden anderen Unifikatorθeine Substitutionγ gibt mit θ = σγ. �

Sind zwei Termes und t unifizierbar, so gibt es einen allgemeinsten Unifikator,der bis auf Variablenumbenennungen eindeutig bestimmt istund effizient berechnetwerden kann.

C.3.3 Resolution

Eine besondere Ableitungsregel fur Klauseln ist die Resolutionsregel ([92]).

Definition C.3.6 (Resolutionregel, Faktorisierungsregel)

1. Es seien zwei KlauselnC = (L∨L1∨ . . .∨Lm) undC′ = (¬L′∨L′1∨ . . .∨L′m′) mitunifizierbaren AtomenL und L′ gegeben (m,m′ ≥ 0). Es seiθ ein allgemeinsterUnifikator vonL undL′. Dann istL1θ∨ . . .∨Lmθ∨L′1θ∨ . . .∨L′m′θ die ResolventevonC undC′ bezuglichL undL′.

2. Cθ heißt Faktor vonC, wennθ der MGU vonLi undL j ausC ist.3. Fur eine Menge von KlauselnS und eine KlauselC gilt S`res C, wennC durch

Resolution und Faktorisierung ausSabgeleitet werden kann. �

Die Resolution hat die folgenden Eigenschaften.

Proposition C.3.3 (Eigenschaften der Resolution)

1. Die Resolution ist eine korrekte Ableitungsregel, d. h.,ausS`res F folgt S|= F2. Die Resolution ist nicht vollstandig, d. h., ausS|= F folgt nichtS`res F.3. Gilt S`res�, so istSunerfullbar.4. Zu jeder allgemeinen FormelF kann man eine Menge von KlauselnF ′ konstruie-

ren, so daß gilt:S|= F gdw.S∪F ′ `res�. �

Eine eingeschrankte Form der Resolution, die auch fur PROLOG-Programmemit einer Links-Tiefensuche als Resolutionsstrategie verwendet wird, ist die SLD-Resolution ([64]).

Definition C.3.7 (SLD-Resolution) Ist C ein definites Ziel undC′ eine definite Pro-grammklausel, so ist die Resolvente wieder ein definites Ziel. Eine solche Resolventeheißt SLD-Resolvente. �

Eine (erfolgreiche)SLD-Refutationder Langen ist eine lineare Ableitung der lee-ren Klausel� aus einem ProgrammP und einem ZielG in n Schritten, d. h.P,G`SLD

�. Man erhalt aus den fur die Resolutionen verwendeten Unifikatorenθ1, . . . ,θn dieAntwortsubstitutionθ = θ1 . . .θn. Ist G =← A1, . . . ,Ak dann giltP |= ∀(A1, . . . ,Ak)θ.Gilt umgekehrtP |= ∀(A1, . . . ,Ak)θ′, so kann manG mit einer SLD-Refutation wie-derlegen, wobei fur die Antwortsubstitutionσ gilt, daß es einγ gibt mit θ′ = σγ(Vollstandigkeit, [64]).


In [54] finden sich die folgenden Resultate fur Klauseln undResolution: DieErfullbarkeit von allgemeinen Klauseltheorien ist unentscheidbar. IstP ein ProgrammundC eine Hornklausel, so istSLD widerlegungsvollstandig, d. h.,P |= C impliziertP,Skolem(¬C) `SLD �, vgl. Anfang des Kapitels zur ILP.P,G `SLD � ist nicht ent-scheidbar wennG ein definites Ziel ist (und damit auch nichtP,Skolem(¬C) `SLD�).G,Skolem(¬F) `SLD� ist fur KlauselnG undF entscheidbar, wennG generativ ist.

Literatur

1. R. Agrawal, T. Imielinski, and A. Swami. Mining association rules between sets of itemsin large databases. In P. Buneman and Sushil Jajodia, editors, Proc. of the 1993 Interna-tional Conference on Management of Data (SIGMOD ’93), pages 207–216, Washington,D.C., 1993.

2. D. Angluin. Queries and concept learning.Machine Learning, 2(4):319–342, April 1988.3. R. Ash.Information theory. Interscience, New York, 1965.4. M. Bain and S. H. Muggleton. Non-monotonic learning. In J.E. Hayes, D. Michie, and

E. Tyugu, editors,Machine Intelligence 12, pages 105–119. Oxford University Press,Oxford, 1991.

5. F. Bergadano, D. Gunetti, M. Nicosia, and G. Ruffo. Learning logic programs withnegation as failure. In L. De Raedt, editor,Advances in Inductive Logic Programming,pages 107–123. IOS Press, 1996.

6. G. Bisson. Conceptual clustering in a first order logic representation. In Bernd Neumann,editor, Proceedings of the 10th European Conference on Artificial Intelligence, pages458–462, Vienna, Austria, August 1992. John Wiley & Sons.

7. G. Bisson. Learning in FOL with a similarity measure. In William Swartout, editor,Proceedings of the 10th National Conference on Artificial Intelligence, pages 82–87, SanJose, CA, July 1992. MIT Press.

8. L. Breiman, J. H. Friedman, R. A. Olshen, and C. J. Stone.Classification and RegressionTrees. Wadsworth International Group, 1984.

9. H. Bunke and B. T. Messmer. Efficient attributed graph matching and its application toimage analysis. volume 974 ofLecture Notes in Computer Science, page 45 ff. Springer-Verlag, 1995.

10. W. Buntine. Generalized subsumtion and its applications to induction and redundancy.Artificial Intelligence, 36:149–176, 1988.

11. W. Buntine and T. Niblett. A Further Comparison of Splitting Rules for Decision TreeInduction. Machine Learning, 8:75 – 85, 1992.

12. R. Carraghan and M. P Pardalos. An exact algorithm for themaximum clique problem.Operations Research Letter, 9:375–382, 1990.

13. A. K. Debnath, L. de Compadre, G. Debnath, A. J. Shusterman, and C. Hansch. Structure-activity relationship of mutagenic aromatic and heteroaromatic nitro compounds. Corre-lation with molecular orbital energies and hydrophobicity. J. Med. Chem., 34:786–797,1991.

14. L. Dehaspe, W. Van Laer, and L. De Raedt. Applications of alogical discovery engine. InS. Wrobel, editor,Proceedings of the 4th International Workshop on InductiveLogic Pro-gramming, volume 237 ofGMD-Studien, pages 291–304. Gesellschaft fur Mathematikund Datenverarbeitung MBH, 1994.

15. L. Dehaspe, H. Toivonen, and R.D. King. Finding frequentsubstructures in chemicalcompounds. In R. Agrawal, P. Stolorz, and G. Piatetsky-Shapiro, editors,Proc. of theKDD-98, pages 30–36. AAAI Press, 1998.

16. T. G. Dietterich. Approximate statistical tests for comparing supervised classificationlearning algorithms.Neural Computation, 10(7):1895–1923, 1998.

182 Literatur

17. Y. Dimopoulos and Antonis Kakas. Learning non-monotonic logic programs: Learningexceptions. In N. Lavrac and S. Wrobel, editors,Proceedings of the 8th European Con-ference on Machine Learning, volume 912 ofLNAI, pages 122–137, Berlin, April 1995.Springer.

18. B. Dolsak, A. Jezernik, and I. Bratko. A knowledge base for finite element mesh design.In Proc. Sixth ISSEK Workshop, Ljubljana, Slovenia, 1992. Jozef Stefan Institute.

19. B. Dolsak and S. Muggleton. The application of Inductive Logic Programming to finiteelement mesh design. In S. Muggleton, editor,Inductive Logic Programming. AcademicPress, London, 1992.

20. B. Dolsak, I. Bratko, and A. Jezernik. Finite element mesh design: An engineering do-main for ILP application. In S. Wrobel, editor,Proceedings of the 4th InternationalWorkshop on Inductive Logic Programming, volume 237 ofGMD-Studien, pages 305–320. Gesellschaft fur Mathematik und Datenverarbeitung MBH, 1994.

21. W. Emde and D. Wettschereck. Relational instance based learning. In Lorenza Sait-ta, editor,Machine Learning - Proceedings 13th International Conference on MachineLearning, pages 122–130. Morgan Kaufmann Publishers, 1996.

22. F. Esposito, A. Laterza, D. Malerba, and G. Semerano. Refinement of datalog programs.In ICML ’96 Workshop on “Datamining with Inductive Logic Programming, pages 73–94, 1996.

23. F. Esposito, D. Malerba, and G. Semeraro. Automated acquisition of rules for docu-ment understanding. InProceedings of the 2nd International Conference on DocumentAnalysis and Recognition, pages 650–654, 1993.

24. U.M. Fayyad and G. Piatesky-Shapiro.Advances in knowledge discovery and data mi-ning. MIT Press, 1996.

25. C. Feng. Inducing temporal fault diagnostic rules from aqualitative model. In L. Birn-baum and G. Collins, editors,Proceedings of the 8th International Workshop on MachineLearning, pages 403–406. Morgan Kaufmann, 1991.

26. M. Fisz. Wahrscheinlichkeitsrechnung und mathematische Statistik. VEB DeutscherVerlag der Wissenschaften, Berlin, 9 edition, 1978.

27. K. Furukawa, T. Murakami, K. Ueno, and T. Ozaki. On a sufficient condition for theexistence of most specific hypothesis in Progol. InProc. ILP 1979, volume 1297 ofLecture Notes in Computer Science, page 157 ff. Springer-Verlag, 1997.

28. M. R. Garey and D. S. Johnson.Computers and Intractability: A Guide to NP-Completeness. W.H. Freeman and Company, San Francisco, California, 1979.

29. P. Geibel. Graph based induction of spatial relations inmental models. In P. Geibel,Carsten Gips, Sylvia Wiebrock, and F. Wysotzki, editors,Learning Spatial Relations withCAL5 and TRITOP, number 98-7 in Rote Reihe, pages 25–51. Fachbereich Informatik,Technische Universitat Berlin, 1998.

30. P. Geibel, K. Schadler, and F. Wysotzki. Begriffslernen fur strukturierte Objekte. InK. Morik and J. Herrmann, editors,Beitrage zum 7. Treffen der GI-Fachgruppe 1.1.3(Maschinelles Lernen) – Proceedings FGML-95, pages 10–15. Forschungsbericht Nr.580 des Fachbereichs Informatik der Universitat Dortmund, 1995.

31. P. Geibel and F. Wysotzki. Induction of Context Dependent Concepts. In L. DeRaedt,editor,Proceedings of the 5th International Workshop on InductiveLogic Programming,pages 323–336. Department of Computer Science, KatholiekeUniversiteit Leuven, Bel-gium, 1995.

Literatur 183

32. P. Geibel and F. Wysotzki. Learning relational conceptswith decision trees. In Loren-za Saitta, editor,Machine Learning: Proceedings of the Thirteenth International Confe-rence, pages 166–174. Morgan Kaufmann Publishers, San Fransisco, CA, 1996.

33. P. Geibel and F. Wysotzki. Relational learning with decision trees. In W. Wahlster, editor,Proceedings of the 12th European Conference on Artificial Intelligence, pages 428–432.J. Wiley and Sons, Ltd., 1996.

34. P. Geibel and F. Wysotzki. Induction of relational decision trees by optimization ofstructural attributes. In R. Studen and M. Wiese, editors,Beitrage zum 9. Treffen derGI-Fachgruppe 1.1.3 (Maschinelles Lernen) – Proceedings FGML-97, 1997.

35. P. Geibel and F. Wysotzki. A logical framework for graph theoretic decision tree learning.In N. Lavrac and S. Dzeroski, editors,Proceedings of the International Workshop onInductive Logic Programming (ILP ’97), volume 1297 ofLNAI, pages 166–173, Berlin,1997. Springer-Verlag.

36. J. H. Gennari, P. Langley, and D. Fisher. Models of Incremental Concept Formation.Artificial Intelligence, 40:11 – 61, 1989.

37. K. Goede and F. Klix. Lernabhangige Strategien der Merkmalsgewinnung der Klas-senbildung beim Menschen. In F. Klix, W. Krause, and H. Sydow, editors,Kybernetik-Forschung, H. 1, Zeichenerkennungs- und Klassifizierungsprozesse in biologischen undtechnischen Systemen. VEB Deutscher Verlag der Wissenschaften, Berlin, 1972.

38. G. Gottlob. Subsumption and implication.Information Processing Letters, 24(2):109–111, January 1987.

39. J. Hartung.Lehr- und Handbuch der angewandten Statistik. R. Oldenbourg Verlag, 1989.40. D. Haussler. Learning Conjunctive Concepts in Structural Domains.Machine Learning,

4:7 – 40, 1989.41. F. Hayes-Roth. Representation of structured events andefficient procedure for their re-

cognition. Pattern Recognition, 8:141–150, 1976.42. F. Hayes-Roth and J. McDermott. Knowledge acquisition from structural descriptions.

In Raj Reddy, editor,Proceedings of the 5th International Joint Conference on ArtificialIntelligence, pages 356–362, Cambridge, MA, August 1977. William Kaufmann.

43. N. Helft. Inductive generalization: A logical framework. In Proceedings of the SecondWorking Session on Learning, pages 149–157, 1987.

44. E. Henze and H. H. Homuth.Einfuhrung in die Informationstheorie. Vieweg, Braun-schweig, 3 edition, 1970.

45. R. Herbrich. Personliche Kommunikation.46. R. Herbrich. Segmentierung mit Gaborfiltern zur Induktion struktureller Klassifikatoren

auf Bilddaten. Master’s thesis, TU Berlin, 1997.47. J. Hinteregger.Ein verbessertes Verfahren zur Feststellung der Isomorphie endlicher

Graphen. PhD thesis, Philosophische Fakultat Insbruck, 1976. Dissertation.48. J. Hinteregger and G. Tinhofer. Zerlegung der Knotenmengen von Graphen zum Nach-

weis der Isomorphie.Computing, 18:351 – 359, 1977.49. L. Hyafil and R. L. Rivest. Constructing optimal binary decision trees is NP-complete.

Information Processing Letters, 5(1):15–17, May 1976.50. B.-J. Jain, M. Popov, and P. Geibel. A generalization based approach to the generation

and valuation of patterns for graph reduction. In F. Wysotzki, P. Geibel, and S. Schadler,editors,Beitrage zum Treffen der GI-Fachgruppe 1.1.3 (Maschinelles Lernen), number

184 Literatur

98/11 in Technischer Bericht des Fachbereiches Informatik, pages 148–155. TechnischeUniversitat Berlin, 1998.

51. F. Kaden and F. Sobik. Beitrage zur angewandten Graphentheorie - Teil 1. TechnischerBericht, Akademie der Wissenschaften der DDR, Zentralinstitut fur Kybernetik und In-formationsprozesse, Berlin, 1982.

52. A. Karalic.First Order Regression. PhD thesis, University of Ljubljana, 1995.53. J.-U. Kietz. A comparative study of structural most specific generalisations used in ma-

chine learning. InProc. Third International Workshop on Inductive Logic Programming,pages 149–164, Ljubljana, Slovenia, 1993. J. Stefan Institute Technical Report IJS-DP-6707. Also as Arbeitspapiere der GMD 667.

54. J.-U. Kietz. Induktive Analyse relationaler Daten. PhD thesis, Technische UniversitatBerlin, 1996.

55. R. D. King, S. Muggleton, R. A. Lewis, and M. J. E. Sternberg. Drug design by machinelearning: the use of inductive logic programming to model the structure activity relati-onships of trimethoprim analogues binding to dihydrofolate reductase.Proceedings ofthe National Academy of Sciences of the United States of America, 89(23):11322–11326,December 1992.

56. R. D. King and A. Srinivasan. Relating chemical activityto structure: An examination ofILP successes.New Generation Computing, Special issue on Inductive LogicProgram-ming, 13(3-4):411–434, 1995.

57. R. D. King, M. J. E. Sternberg, A. Srinivasan, and S. H. Muggleton. Knowledge Disco-very in a Database of Mutagenic Chemicals. InProceedings of the Workshop “Statistics,Machine Learning and Discovery in Databases” at the ECML-95, 1995.

58. V. Klingspor, K. J. Morik, and A. D. Rieger. Learning concepts from sensor data of amobile robot.Machine Learning, 23:305–332, 1996.

59. S. Kramer. Structural regression trees. Technical Report TR-95-35,OsterreichischesForschungsinstitut fur Artificial Intelligence, 1995.

60. S. Kramer. Structural regression trees. InProceedings of the Thirteenth National Confe-rence on Artificial Intelligence and the Eighth Innovative Applications of Artificial Intel-ligence Conference, pages 812–819, Menlo Park, 1996. AAAI Press / MIT Press.

61. P. A. Lachenbruch and M. R. Mickey. Estimation of error rates in discriminant analysis.Technometrics, 10:1–11, 1968.

62. N. Lavrac and S. Dzeroski.Inductive Logic Programming. Ellis Horwood, 1994.63. N. Lavrac, S. Dzeroski, and M. Grobelnik. Learning nonrecursive definitions of relations

with LINUS. In Y. Kodratoff, editor,Proceedings of the European Working Session onLearning : Machine Learning (EWSL-91), volume 482 ofLNAI, pages 265–281, Porto,Portugal, March 1991. Springer Verlag.

64. J. W. LLoyd.Foundations of Logic Programming. Springer-Verlag, 1987.65. D. Ludtke. Entwicklung und Anwendung von Lernverfahren fur die operationale Seman-

tik von Verben. Master’s thesis, TU Berlin, 1998.66. M. Manago. Knowledge intensive induction. In A. M. Segre, editor,Proceedings of the

6th International Workshop on Machine Learning, pages 151–155, Ithaca, 1989. MorganKaufmann.

67. J. McCarthy. Towards a mathematical theory of computation. In Proc. IFIP Congress62, pages 21–28, Amsterdam, 1962. North-Holland.

Literatur 185

68. J. McCarthy. A Basis for a Mathematical Theory of Computation. In P. Braffortand D. Hirschberg, editors,Computer Programming and Formal Systems, pages 33–70.North-Holland, Amsterdam, 1963.

69. R. S. Michalski, J. G. Carbonell, and T. M. Mitchell, editors. Machine Learning: AnArtificial Intelligence Approach 1, volume I. Morgan Kaufmann, Los Altos, California,1983.

70. R. S. Michalski, J. G. Carbonell, and T. M. Mitchell, editors. Machine Learning: AnArtificial Intelligence Approach 2, volume II. Morgan Kaufmann, Los Altos, California,1986.

71. D. Michie, D. H. Spiegelhalter, and C. C. Taylor.Machine Learning, Neural and Stati-stical Classification. Series in Artificial Intelligence. Ellis Horwood, 1994.

72. J. Mingers. An Emperical Comparison of Selection Measures for Decision Tree Inducti-on. Machine Learning, 3:319 – 342, 1989.

73. T. M. Mitchell. Version spaces: A candidate eliminationapproach to rule learning. InProceedings of the fifth International Joint Conference on Artificial Intelligence, pages305–310, 1977.

74. S. Muggleton, editor.Inductive Logic Programming. Academic Press, 1992.75. S. Muggleton. Inverse entailment and Progol.New Generation Computing, Special issue

on Inductive Logic Programming, 13(3-4):245–286, 1995.76. S. Muggleton. Inverting entailment and Progol. InMachine Intelligence, volume 14,

pages 133–188. Oxford University Press, 1995.77. S. Muggleton and L. DeRaedt. Inductive logic programming: Theory and methods.The

Journal of Logic Programming, 19 & 20:629–680, May 1994.78. S. Muggleton and C. Feng. Efficient induction of logic programs. In S. Muggleton,

editor,Inductive Logic Programming, pages 281–297. Academic Press, 1992.79. S. H. Muggleton, R. King, and M. Sternberg. Protein secondary structure prediction

using logic. InProc. Second International Workshop on Inductive Logic Programming,Tokyo, Japan, 1992. Technical Report ICOT TM-1182.

80. G. Nakhaeicadeh and C. C. Taylor.Machine Learning and Statistics – The Interface.John Wiley, 1996.

81. B. K. Natarajan.Machine Learning, A Theoretical Approach. Morgan Kaufmann, SanMateo, CA, 1991.

82. M. Papendick. Lernfahige Klassifikation strukturierter Objekte mit kontinuierlichenMerkmalen und Klassenwerten. Master’s thesis, TechnischeUniversitat Berlin, Fach-bereich Informatik, 1997.

83. B. Parandian. Induktion rekursiver kontextabhangiger konzepte. Master’s thesis, TUBerlin, 1996. Studienarbeit.

84. G. D. Plotkin. A note on inductive generalization. InMachine Intelligence, pages 153–164. Edinburgh University Press, 1969.

85. G. D. Plotkin.Automatic Methods of Inductive Inference. PhD thesis, Edinburgh Univer-sity, 1971.

86. G. D. Plotkin. A further note on inductive generalization. In Machine Intelligence,volume 6, pages 101–124. American Elsevier, 1971.

87. J. R. Quinlan. Learning Logical Definitions from Relations. Machine Learning, 5:239 –266, 1990.

88. J. R. Quinlan.C4.5: Programs for Machine Learning.Morgan Kaufmann, 1993.

186 Literatur

89. J. R. Quinlan. Improved Use of Continuous Attributes in C4.5. Journal of ArtificialIntelligence, 4:77–90, 1996.

90. J.R. Quinlan. Induction of Decision Trees.Machine Learning, 1(1):82 – 106, 1986.91. L. De Raedt and H. Blockeel. Using logical decision treesfor clustering. In N. Lavrac

and S. Dzeroski, editors,Proc. of the 7th Int. WS on ILP, volume 1297 ofLNAI, pages133–140. Springer, September17–20 1997.

92. J. Robinson. A machine-oriented logic based on the resolution principle. Journal of theACM, 8(1):23–41, 1965.

93. E.H. Rosch. Natural categories.Cognitive Psychology, 4:328–350, 1973.94. C. Rouveirol. Semantic model for induction of first ordertheories. In J. Reiter R. My-

opoulos, editor,Proceedings of the 12th International Joint Conference on Artificial In-telligence, pages 685–691, Sydney, Australia, August 1991. Morgan Kaufmann.

95. K. Schadler, U. Schmid, Hendrik Lubben, and Bernd Machenschalk. A neural net fordetermining structural similarity of recursive programs.In Proc. of the 5th GermanWorkshop on Case-Based Reasoning 1997, number LSA-97-02E in Technical Report,Kaiserslautern, 1997. University of Kaiserslautern, Zentrum fur Lernende Systeme undAnwendungen.

96. K. Schadler and F. Wysotzki. Klassifizierungslernen mit Hilfe spezieller Hopfield-Netze.In W. Dilger, M. Schlosser, J. Zeidler, and A. Ittner, editors, Beitrage zum 9.Fachgrup-pentreffen Maschinelles Lernen der GI-Fachgruppe 1.1.3., number CSR-96-06 in Chem-nitzer Informatik-Berichte, pages 96–100. TU Chemnitz-Zwickau, August 1996.

97. K. Schadler and F. Wysotzki. Theoretical foundations of a special neural net approachfor graphmatching. Technical Report 96-26, TU Berlin, CS Dept., 1996.

98. K. Schadler and F. Wysotzki. A connectionist approach to distance-based analysis of re-lational data. In X. Liu, P. Cohen, and M. Berthold, editors,Advances in Intelligent DataAnalysis. Reasoning about Data. Proc. of the IDA-97, pages 137–148, Berlin HeidelbergNew York, 1997. Springer.

99. K. Schadler and F. Wysotzki. A connectionist approach to structural similarity determina-tion as a basis of clustering, classification and feature detection. In Jan Komorowski andJan Zytkow, editors,Principles of Data Mining and Knowledge Discovery. Proc. ofthe1st European Symposium on the Principles of Data Mining and Knowledge Discovery,page LNAI. Springer, 1997.

100. K. Schadler and F. Wysotzki. Application of a neural net in classification and knowledgediscovery. In M. Verleysen, editor,Proc. ESANN’98, pages 117–122. D-Facto, 1998.

101. T. Scheffer. Personliche Kommunikation.102. U. Schmid and F. Wysotzki. Induction of recursive program schemes. In Claire Nedellec

and Celine Rouveirol, editors,Proceedings of the 10th European Conference on MachineLearning, number 1398 in LNAI. Springer, 1998.

103. G. Schmidt and T. Strohlein.Relations and Graphs. Springer-Verlag, 1993.104. M. Sebag. Distance induction in first order logic. In N. Lavrac and S. Dzeroski, editors,

Proceedings of the 7th International Workshop on InductiveLogic Programming, volume1297 ofLNAI, pages 264–272, Berlin, 1997. Springer.

105. J. Selbig. Zum automatischen Erlernen von Beschreibungen fur Klassen vonVeranderungen strukturierter Objekte aus Beispielen. ZKI Informationen 1/97, Akade-mie der Wissenschaften der DDR, 1987.

106. E. Y. Shapiro.Algorithmic Program Debugging. MIT Press, Cambridge, MA, 1983.

Literatur 187

107. F. Sobik and E. Sommerfeld. Klassfikation strukturierter Objekte auf der Grundlageder Isomorphie von Untergraphen. Rostocker Mathematisches Kolloquium 10, Wilhelm-Pieck-Universitat Rostock, Sektion Mathematik, 1978.

108. F. Sobik and E. Sommerfeld. A graph theoretic approach for representation and classifi-cation of structured objects. InProceedings of the 5.th European Conference on ArtificialIntelligence, ECAI, pages 108–113. Orsay, 1982.

109. V. Sperschneider. Manuscript zur Vorlesung LOGIK. Universitat Karlsruhe, 1984.110. A. Srinivasan, R.D. King, S.H. Muggleton, and M. J. E Sternberg. Carcinogenesis pre-

dictions using ILP. In N. Lavrac and S. Dzeroski, editors,Inductive Logic Programming(Proc. ILP-97), number 1297 in LNAI, pages 273–287. Springer-Verlag, 1997.

111. A. Srinivasan, S. Muggleton, R. King, and M. Sternberg.Mutagenesis: ILP experimentsin a non-determinate biological domain. In S. Wrobel, editor, Proceedings of the FourthInternational Workshop on Inductive Logic Programming, number 237 in GMD-Studien,pages 217–232, 1994.

112. A. Srinivasan, S. Muggleton, M. J. E. Sternberg, and R. D. King. Theories for mu-tagenicity: A study in first-order and feature-based induction. Artificial Intelligence,85(1,2):227–299, 1996.

113. A. Srinivasan and S. H. Muggleton. Comparing the use of background knowledge bytwo inductive logic programming systems. In L. De Raedt, editor, Proceedings of the 5thInternational Workshop on Inductive Logic Programming, pages 199–230. Departmentof Computer Science, Katholieke Universiteit Leuven, Belgium, 1995.

114. I. Stahl. Predicate invention in inductive logic programming. In L. De Raedt, editor,Advances in Inductive Logic Programming, pages 34–47. IOS Press, 1996.

115. G. Tinhofer. Zur Bestimmung der Automorphismen eines endlichen Graphen.Compu-ting, 15:147–156, 1974.

116. G. Tinhofer.Methoden der angewandten Graphentheorie. Springer-Verlag, 1976.117. G. Tinhofer. Zum algorithmischen Nachweis der Isomorphie von endlichen Graphen. In

H. Noltemeier, editor,Ergebnisse des Workshops WG76, pages 170–182, 1976.118. G. Tinhofer. On the isomorphisms of structures. Preprint, published in “Discrete Mathe-

matics, 1977.119. S. Unger and F. Wysotzki.Lernfahige Klassifizierungssysteme. Akademie-Verlag, Berlin,

1981.120. L. G. Valiant. A theory of the learnable.Communications of the ACM, 27(11):1134–

1142, November 1984.121. P. R. J. van der Laag and S. H. Nienhuys-Cheng. Existenceand nonexistence of complete

refinement operators. In Francesco Bergadano and L. de Raedt, editors,Proceedings ofthe European Conference on Machine Learning, volume 784 ofLNAI, pages 307–322,Berlin, April 1994. Springer.

122. S. A. Vere. Induction of Concepts in the Predicate Calculus. In Proceedings of theFourth International Joint Conference on Artificial Intelligence, volume 1, pages 281 –287, 1975.

123. S. A. Vere. Induction of relational productions in the presence of background informati-on. In Raj Reddy, editor,Proceedings of the 5th International Joint Conference on Arti-ficial Intelligence, pages 349–355, Cambridge, MA, August 1977. William Kaufmann.

124. L. Watanabe and L. Rendell. Feature construction in structural decision trees. In L. Birn-baum and G. Collins, editors,Proceedings of the 8th International Workshop on MachineLearning, pages 218–222. Morgan Kaufmann, 1991.

188 Literatur

125. B. Weisfeiler. On Construction and Identification of Graphs. Number 558 in LectureNotes in Mathematics. Springer-Verlag, Berlin, 1976.

126. P. H. Winston. Learning Structural Descriptions from Examples. In P. H. Winston, editor,The Psychology of Computer Vision, chapter 5. McGraw-Hill, 1975.

127. S. Wrobel. Automatic representation adjustment in an observational discovery system. InD. Sleeman, editor,Proc. of the 3rd Europ. Working Session on Learning, pages 253–262,London, 1988. Pitman.

128. S. Wrobel. An algorithm for multi-relational discovery of subgroups. In Jan Komorowskiand Jan Zytkow, editors,Proc. First European Symposion on Principles of Data Miningand Knowledge Discovery (PKDD-97), pages 78–87, Berlin, 1997. Springer Verlag.

129. F. Wysotzki. Artificial intelligence and artificial neural nets. InProceedings of the 1stWorkshop on AI. TU Berlin/Jiaotong University Shanghai, 1990.

130. F. Wysotzki, W. Kolbe, and J. Selbig. Concept Learning by Structured Examples - AnAlgebraic Approach. InProceedings of the Seventh IJCAI, 1981.

131. F. Wysotzki and H. Rossler. Ein Metaalgorithmus zur Konstruktion von Klassifizierungs-algorithmen . In F. Klix, U. Rosler, and H. Sydow, editors,Kybernetik-Forschung, H. 3,Lernende System. VEB Deutscher Verlag der Wissenschaften, 1973.

132. B. Zelinka. On A Certain Distance Between Isomorphism Classes Of Graphs.Casopispro pestovani matematiky, 100, 1975.

133. J. M. Zelle and R. J. Mooney. Learning semantic grammarswith constructive induc-tive logic programming. InProceedings of the 11th National Conference on ArtificialIntelligence, pages 817–823, Menlo Park, CA, USA, July 1993. AAAI Press.

134. J. M. Zelle, R. J. Mooney, and J. B. Konvisser. Combiningtop-down and bottom-uptechniques in inductive logic programming. In W. W. Cohen and H. Hirsh, editors,Pro-ceedings of the 11th International Conference on Machine Learning, pages 343–351.Morgan Kaufmann, 1994.

Induktive Konstruktion von ... - peter- · PDF fileVon Herrn Geibel wird dazu der Begriff der...

Documents

Transcript of Induktive Konstruktion von ... - peter- · PDF fileVon Herrn Geibel wird dazu der Begriff der...