Rough Set Theory (Grobe Logik)

Seminar

Nichtklassische Logiken

Grobe Logik Eugen Petrosean

WS 2012/2013

Betreuer:

Roland Glück

Augsburg, den 17. Januar 2013

ErklärungHiermit versichere ich die vorliegende Seminararbeit selbstständig und ohne fremde Hilfe verfasst und keine anderen als die angegebenen Quellen und Hilfsmittel verwendet zu haben.

Augsburg, den 17. Januar 2013

Eugen Petrosean

1 Einleitung

Inhaltsverzeichnis

1 Einleitung........................................................................................4

2 Grundlegendes................................................................................52.1 Überblick über die grundlegenden Mengentheorien ........................................52.2 Allgemeiner Ablauf zur Erstellung eines regelbasierten Modells......................62.3 Beispiel – Medizinische Daten...........................................................................7

3 Rough Set – Theorie für Informationssysteme ............................103.1 Allgemeiner Ablauf der Analyse für Informationssysteme..............................103.2 Informationssystem..........................................................................................113.3 Ununterscheidbarkeitsrelation.........................................................................113.4 Untere und obere Annäherung.........................................................................133.5 Reduktion der Attribute – Redukte und Kerne................................................153.6 Reduktion der Attributwerte – Redukte und Kerne........................................183.7 Klassifikation der Objekte – Qualität und Genauigkeit ..................................20

4 Rough Set – Theorie für Entscheidungssysteme...........................234.1 Allgemeiner Ablauf der Analyse für Entscheidungssysteme ...........................234.2 Entscheidungssystem.......................................................................................234.3 Abhängigkeiten zwischen Bedingungs- und Entscheidungsattributen...........244.4 Reduktion der Attribute – relative Redukte und relative Kerne.....................264.5 Reduktion der Attributwerte – relative Redukte und relative Kerne..............284.6 Entscheidungsregeln........................................................................................31

5 Fazit..............................................................................................33

Literatur..........................................................................................34

3

1 Einleitung

1 EinleitungIm Hinblick auf die Diagnostizierung von Krankheiten sind die Abdominalschmerzen eines Kindes ein überliche, aber gleichzeitig eine schwierige Aufgabe. Es gibt viele mögliche Ursachen für diese Schmerzen, die in den meisten Fällen nicht ernsthaft sind. Allerdings können diese Schmerzen auch ein Indikator dafür sein, dass ein Patient eine ernsthafte Krankheit hat, die eine sofortige Behandlung erfordert. Erfahrene Ärzte würden eine Vielfalt von relevanten historischen Informationen und ärztlichen Beo-bachtungen heranziehen, um Kinder zu untersuchen. Diese Informationen bzw. Mekmale kommen in wieder erkennbaren Zusammenhängen vor, so dass eine schnelle und effektive Diagnostizierung möglich ist. Unerfahrene Ärzte dagegen können sich schwer tun, diese Zusammenhänge zu erkennen, da ihnen das erforderliche Wissen und die entsprechende Erfahrung fehlt. Die Rough-Set-Theorie1 [Paw, Wam99, Orw00, Ril09] kommt also in diesem Bereich der Medizin zum Einsatz, um zu helfen, Zusammenhänge aus historischen Informationen in Form von Entscheidungsregeln zu gewinnen und dabei solche unerfahrenen Ärzte zu unterstützen. In dieser Arbeit werden wir ganz genau auf die grundlegenden Ansätze der Rough-Set-Theorie eingehen und erklären, wie man anhand von ungenauen und unvollständigen Daten bzw. Informationen neue Zusammenhänge erkennen und sie in Form von Entscheidungsregeln beschreiben kann.

1 Zu Deutsch - Grobmengentheorie

4

2 Grundlegendes

2 Grundlegendes

2.1 Überblick über die grundlegenden Mengentheorien In diesem Abschnitt werden wir die grundlegenden Unterschiede (siehe Abbildung 2.1) zwischen den existierenden Mengentheorien beschreiben und darauf eingehen, wie die Rough-Set-Theorie im Vergleich zur klassischen Mengentheorie und der Fuzzy-Set-Theorie mit ungenauen Konzepten umgeht.

Abbildung 2.1: Schematische Gegenüberstellung von grundlegenden Mengentheorien (Quelle: eigene Darstellung)

In der klassischen Mengentheorie wird eine Menge eindeutig durch ihre Elemente definiert, d.h. jedes Element wird so klassifiziert, dass es entweder einer bestimmten Menge angehört oder nicht (also in ihrem Komplement enthalten ist). Beispielsweise ist die Menge der geraden ganzen Zahlen scharf, da jede ganze Zahl entweder gerade oder ungerade sein kann. Dagegen der Versuch beispielsweise verschiedene Gemälde als schön oder nicht schön zu klassifizieren, nicht möglich ist, da der Begriff – schön – kein exaktes Konzept darstellt, um somit alle Gemälde, die wir kennen, eindeutig in zwei Klassen – schön und nicht schön – einteilen zu können. Somit wird der Begriff – Ungenauigkeit (vagueness) – mit dem Ansatz in Verbindung gebracht, dass es Objekte gibt, die nicht eindeutig einer Menge oder ihrem Komplement zugeordnet werden können.Die Fuzzy-Set-Theorie stellt einen solchen Ansatz dar, wie Ungenauigkeiten modelliert werden können. Der Grad an Zugehörigkeit zu einer Menge wird dabei durch eine Zugehörigkeitsfunktion beschrieben, die den Elementen einer Grundmenge eine reelle Zahl k 0k1 zuordnet. Beispielsweise können wir mittels der klassischen Men-gentheorie festhalten, dass jemand definitiv krank oder gesund ist, während mit Hilfe der Fuzzy-Set-Theorie eine Aussage möglich ist, dass jemand zu 60 Prozent krank oder gesund ist.In der Rough-Set-Theorie wird der Begriff – Ungenauigkeit – nicht durch eine Zugehörigkeitsfunktion definiert, wie dies beispielsweise in der Fuzzy-Set-Theorie der Fall ist, sondern, indem der Begriff einer Randmenge bzw. einer Grenzregion eingeführt wird. Ist die Grenzregion einer Menge leer, dann ist die Menge scharf (crisp), andernfalls ist die Menge grob bzw. ungenau (rough). Wenn die Grenzregion

5

2 Grundlegendes

einer Menge nicht leer ist, dann können wir daraus schließen, dass das Wissen in Form von Beispieldaten, die uns zur Verfügung stehen, nicht ausreichen, um diese Menge exakt zu definieren (siehe Beispiel aus dem Abschnitt 2.3). Der Hauptvorteil der Rough-Set-Theorie besteht darin, dass keine vorläufigen bzw. zusätzlichen Informationen über die zu analysierenden Daten benötigt werden – wie beispielsweise in der Fuzzy-Set-Theorie in Bezug auf den Grad an Zugehörigkeit eines Elements zu einer Menge. Die Rough-Set-Theorie umfasst somit folgende Aspekte:

– Einführung von effizienten Algorithmen zur Erkennung von versteckten Zusammenhängen in den zu analysierenden Daten

– Bestimmung von minimalen Mengen von Daten (Reduktion der Daten)

– Auswertung der Daten im Hinblick auf ihre Wichtigkeit

– Bestimmung von Entscheidungsregeln

– Einfache Interpretation von erzielten Ergebnissen

2.2 Allgemeiner Ablauf zur Erstellung eines regelbasierten Modells

Die regelbasierte Modellierung [Orw00] ist ein Modellierungsansatz, bei dem eine Menge von Regeln verwendet wird, um das zugrundeliegende Modell als aussagen-logische Implikationen zu beschreiben. Die regelbasierte Modellierung kommt vor allem in denjenigen Fällen zur Anwendung, in denen die Regelmenge deutlich einfacher ist als das durch die Regelmenge zu beschreibende Modell. Damit ein Modell mit Hilfe von Regeln ausgedrückt werden kann, ist eine Reihe von Schritten (siehe Abbildung 2.2) erforderlich, die im Folgenden erläutert werden. Die Rough-Set-Theorie stellt im Ablauf zur Erstellung eines regelbasierten Modells dagegen nur einen möglichen Ansatz dar, wie Regeln generiert werden können.

Abbildung 2.2: Erstellung eines regelbasierten Modells (Quelle: eigene Darstellung)

6

2 Grundlegendes

Schritt 1 – Diskretisierung der Daten

In diesem Schritt werden nicht kategoriale Daten (Attribute) in kategoriale überführt. Da der Ansatz der Rough-Set-Theorie auf dem Prinzip der Ununterscheidbarkeit von Objekten beruht (siehe Kapitel 3), ist keine Einführung des Begriffs – Distanzmaß – zwischen einzelnen Attributwerten erforderlich, wie man diesen Begriff in vielen anderen Ansätzen des maschinellen Lernens findet. Deshalb müssen nicht kategoriale Attribute in einer Vorverarbeitungsphase der Daten diskretisiert werden. Dieser Schritt legt somit fest, wie grob einzelne Attribute (bzw. Attributwerte) betrachtet werden sollen. Für numerische Attribute bedeutet dies, dass Intervallgrenzen bestimmt werden müssen, um einzelne Attribute auf die entsprechenden Intervalle abzubilden. Beispielsweise können alle Patienten zwischen 45 und 60 Jahren je nach Situation und Bedarf als Patienten gesehen werden, die derselben Altersgruppe angehören.

Schritt 2 – Herleitung der Regeln

In diesem Schritt werden aussagenlogische Implikationen (If-Then-Regeln) anhand von im Schritt 1 diskretisierten Daten bestimmt. Das Verfahren zur Bestimmung von Entscheidungs-regeln mittels der Rough-Set-Theorie wird im Kapitel 3 und 4 genauer erklärt.

Schritt 3 – Anwendung der hergeleiteten Regeln

In diesem Schritt werden die anhand von Beispieldaten hergeleite-ten Regeln angewendet, um herauszufinden, ob sich dadurch neue Zusammenhänge zwischen einzelnen Attributen erkennen lassen, die für die weitere Datenanalyse relevant sind. Um die Qualität der Regeln einschätzen zu können, können sie auf neue Daten angewendet werden, um festzustellen, wie gut beispielsweise Untersuchungsergebnisse der neuen Patienten vorhergesagt werden.

Schritt 4 – Auswertung des Modells

Im letzten Schritt erfolgt eine objektive Quantifizierung der Regeln. Zwar sind sie normalerweise einfach zu interpretieren, können jedoch ein Problem im Hinblick auf ihre Wichtigkeit darstellen, d.h. wie sinnvoll und relevant sie für zu analysierende Datenbestände sind.

2.3 Beispiel – Medizinische DatenIm Abschnitt 2.2 haben wir gesehen, welche Schritte erforderlich sind, um ein

7

2 Grundlegendes

regelbasiertes Modell anhand von zur Verfügung stehenden Beispieldaten zu erstellen. In diesem Abschnitt werden wir auf ein konkretes Beispiel (siehe Tabelle 2.1) eingehen, das auf medizinischen Daten beruht und erklären, welche Probleme bei der Analyse dieser Daten auftreten können.Normalerweise werden erfasste Daten als Tabellen mit Spalten dargestellt. Jeder Spalte entspricht ein Attribut, jeder Zeile ein Objekt und jedem Tabelleneintrag ein bestimm-ter Attributwert. Der Tabelle 2.1 können wir entnehmen, dass die dargestellten Spaltennamen Symptome beschreiben, die bei einem Patienten auftreten können. Die Zeilen dagegen repräsentieren einzelne Patienten und können als konkrete Informationen über diese Personen in Bezug auf ihre Symptome aufgefasst werden.

Patient Headache Muscle-pain Temperature Flu

p1 no yes high yes

p2 yes no high yes

p3 yes yes very high yes

p4 no yes normal no

p5 yes no high no

p6 no yes very high yes

Tabelle 2.1: Beispielhaftes Informationssystem

Beispielsweise wird der Patient p2 (siehe Tabelle 2.1) als Menge von (Attribut, Attributwert) – Paaren wie folgt beschrieben:

(Headache, yes), (Muscle-pain, no), (Temperature, high), (Flu, yes)

Der Tabelle 2.1 können wir außerdem entnehmen, dass die Patienten p2, p3 und p5 in Bezug auf das Attribut – Headache – nicht unterscheidbar sind. Die Patienten p3 und p6 sind in Bezug auf die Attribute – Muscle-pain und Flu – nicht unterscheidbar und die Patienten p2 und p5 sind in Bezug auf die Attribute – Headache, Muscle-pain und Temperature – nicht unterscheidbar. Während das Attribut – Headache – zwei elementare Mengen { p2, p3, p5 } und { p1, p4, p6 } erzeugt, bilden die Attribute – Headache, Muscle-pain – drei elementare Mengen { p1, p4, p6 }, { p2, p5 } und { p3 }. Die Patienten p2 und p5 sind zwar ununterscheidbar in Bezug auf die Attribute – Headache, Muscle-pain und Temperature, weisen jedoch gegensätzliche Diagnosen auf, d.h. der Patient p2 hat die Grippe während beim Patienten p5 keine Grippe diagnostiziert wurde. Folglich kann bei diesen zwei Patienten die Diagnostizierung der Grippe nicht unter Berücksichtigung von den drei Attributen (Symptomen) erfolgen. Deshalb stellen die Patienten p2 und p5 zwei Grenzfälle dar, die nicht genau mit Hilfe des zur Verfügung stehenden Wissens klassifiziert werden können. Die restlichen Patienten p1, p3 und p6 weisen nur solche Symptome auf, die ermöglichen, mit Sicherheit davon auszugehen, dass diese Symptome als Folge einer Grippeinfektion aufgetreten sind. Bei den Patienten p2 und p5 kann es nicht ausgeschlossen werden, dass sie keine Grippe haben und der Patient p4 kann als gesund in Bezug auf die festgehaltenen Symptome gesehen werden. Somit ist die untere Annäherung an die Menge von Patienten, die krank sind, { p1, p3, p6 } und die obere Annäherung { p1, p2, p3, p5, p6 }, wobei die Patienten p2 und p5 zwei Grenzfälle darstellen. Dieselbe Vorgehensweise gilt auch für die Patienten, die

8

2 Grundlegendes

keine Grippeerkrankung haben. Der Patient p4 hat also keine Grippe und bei den Patienten p2 und p5 kann es nicht ausgeschlossen werden, dass sie nicht krank sind. Deshalb ist die untere Annäherung die Menge { p4 }, während die obere Annäherung durch die Menge { p2, p4, p5 } beschrieben wird. Die Grenzfälle, dass die Patienten keine Grippeerkrankung haben, sind dieselben wie im vorherigen Fall, also { p2, p5 }.

9

3 Rough Set – Theorie für Informationssysteme

3 Rough Set – Theorie für Informationssysteme In diesem Abschnitt werden wir die grundlegenden Konzepte der Rough-Set-Theorie [Paw, Wam99] in Bezug auf Datenanalyse vorstellen. Im Gegensatz zur klassischen Mengentheorie, wird in der Grobmengentheorie davon ausgegangen, dass während der Datenanalyse mittels der Rough-Set-Konzepte einige zusätzliche Informationen – Wissen – über Elemente (Objekte) eines Diskursuniversums vorhanden sind. Elemente, die dieselben Besonderheiten aufweisen, werden als nicht unterscheidbar betrachtet und bilden Äquivalenzklassen (Konzepte), die als elementare Granulate des zur Verfügung stehenden Wissens über das gegebene Universum verstanden werden können. Beispielsweise können Patienten, die an einer bestimmten Krankheit leiden und dieselben Symptome aufweisen, als ununterscheidbare Objekte interpretiert werden, da sie somit einen in sich abgeschlossenen Teil des medizinischen Wissens darstellen (siehe Beispiel aus dem Abschnitt 2.3).

3.1 Allgemeiner Ablauf der Analyse für Informationssysteme

Da das Ziel der Rough-Set-Theorie darin besteht, anhand von zur Verfügung stehenden Beispieldaten eine entsprechende Klassifizierung zu erhalten, um später neu entstehende Daten in Form von Objekten, die bisher unbekannt waren, richtig klassifizieren zu können, wird in Abbildung 3.1 der Zusammenhang zwischen den einzelnen Schritten zur Durchführung der Rough-Set-Analyse für Informationssysteme genauer dargestellt.

Abbildung 3.1: Ablauf der Analyse für Informationssysteme (Quelle: eigene

10


Darstellung)

Die eingekreisten Nummern in Abbildung 3.1 entsprechen den einzelnen Schritten der Rough-Set-Analyse für Informationssysteme, die in den nachfolgenden Abschnitten näher erläutert werden.

3.2 InformationssystemIm ersten Schritt der Rough-Set-Analyse für Informationssysteme (siehe Abbildung 3.1 – 1) müssen alle relevanten Informationen in Bezug auf den modellierten Kontext identifiziert werden. Da die Rough-Set-Theorie eine formale Grundlage sowohl für die Klassifikation von ungenauen Daten als auch für die Bestimmung von Entscheidungs-regeln anhand von diesen Daten ist, die normalerweise als Beispieldaten vorliegen, stellt die Rough-Set-Theorie ein Konzept für die Organisation von Beispieldaten in Tabellenform dar, d.h. die Beispieldaten liegen in einer zweidimensionalen Tabelle vor, die bei der Anwendung der Rough-Set-Theorie eingesetzt wird. Eine solche Tabelle wird als Informationssystem bezeichnet und kann mathematisch wie folgt ausgedrückt werden.

Definition (Informationssystem). Ein Informationssystem IS=U , A wird durch eine Menge U={x1, x2, ... , xn} von Objekten (mit 1n∞ ), die als Universum bezeichnet wird, und durch eine Menge A={a1,a2, ... , am} von Attributen (mit1m∞ ) definiert. Für jedes a∈A wird zusätzlich eine Funktion f a :U V a

spezifiziert, wobei V a die Wertemenge von a darstellt.

Die Zeilen dieser Tabelle repräsentieren Objekte, über die in den Spalten dieser Tabelle verschiedene Informationen in Form von Attributen abgelegt sind. Die Tabellen-einträge entsprechen damit den Ausprägungen der Attribute in Bezug auf die betrach-teten Objekte.

Beispiel 1

Betrachten wir das Beispiel aus dem Abschnitt 2.3. Dann lässt sich das zugrunde liegende Informationssystem mathematisch wie folgt auffassen:

U = {p1 , p2 , p3 , p4 , p5 , p6 }A = {Headache , Muscle pain ,Temperature}V Headache = {yes ,no}

V Muscle pain = {yes ,no}

V Temperature = {normal , high , very high}

3.3 UnunterscheidbarkeitsrelationIm zweiten Schritt der Rough-Set-Analyse für Informationssysteme (siehe Abbildung 3.1 – 2) wird das Wissen in Form von Beispieldaten, die uns am Anfang der Datenanalyse zur Verfügung stehen, in Konzepte (elementare Mengen) zusammengefasst, so dass Objekte eines solchen Konzepts durch einen gemeinsamen

11


Grundgedanken verbunden sind. Mathematisch lässt sich dieser Begriff wie folgt beschreiben.

Definition (Ununterscheidbarkeitsrelation). Sei IS=U , A ein Informations-system. Dann wird eine Ununterscheidbarkeitsrelation I B für eine Teilmenge

B⊆A durch die Äquivalenzrelation

I B={x i , x j∈U 2 ∣∀a ∈ B f a x i = f a x j}

definiert.

Die Familie von allen Äquivalenzklassen von I B wird durch U / I B bzw.U /B ausgedrückt. Eine Äquivalenzklasse von I B , in der x enthalten ist, wird

als B x bezeichnet. Wenn also x i , x j ∈ I B , dann sind die Objekte x i undx j ununterscheidbar (indiscernible) von jedem Attribut aus B , d.h. zwar werden

die Elemente in U als unterscheidbar erklärt, unterscheiden sich aber nicht bezüglich der Attributmenge B . Äquivalenzklassen von I B werden auch als elementare Mengen bezeichnet.

Beispiel 1

Betrachten wir das Beispiel aus dem Abschnitt 2.3. Dann erhalten wir für die Attribut-menge B = { Headache, Muscle-pain, Temperature } die folgenden Äquivalenzklassen.

U/A Headache Muscle-pain Temperature

{ p1 } no yes high

{ p2, p5 } yes no high

{ p3 } yes yes very high

{ p4 } no yes normal

{ p6 } no yes very high

Tabelle 3.1: Äquivalenzklassen in Bezug auf die Attribute Headache, Muscle-pain und Temperature

Beispiel 2

Anhand der Tabelle 2.1 erhalten wir für die Attributmenge B = { Headache, Muscle- pain } die Äquivalenzklassen:

U/B Headache Muscle-pain

{ p1, p4, p6 } no yes

{ p2, p5 } yes no

{ p3 } yes yes

Tabelle 3.2: Äquivalenzklassen in Bezug auf die Attribute Headache und Muscle-pain

12


3.4 Untere und obere AnnäherungIm dritten Schritt der Rough-Set-Analyse für Informationssysteme (siehe Abbildung 3.1 – 3) wird ein weiterer wichtiger Ansatz vorgestellt, der im Gegensatz zur graduellen Zuordnung von Elementen zu unscharfen Mengen auf der Idee der Approximation einer groben Menge durch zwei scharfe Mengen beruht. Die Ununterscheidbarkeits-relation induziert eine Partitionierung des Universums, so dass dadurch entstandene Partitionen genutzt werden können, um neue Untermengen des Universums zu bilden.Da das Ziel der unteren und oberen Annäherung darin besteht, dass eine solche Untermenge X durch die Ausprägungen der in B⊆A enthaltenen Attribute zu beschreiben, nähert man sich somit der Menge X durch die untere und obere Approximation an. Die untere Annäherung B∗ X ist die maximale Vereinigungsmenge der elemen-taren Mengen, die vollständig in der Menge X enthalten sind. Mathematisch kann die Definition der unteren Annäherung folgendermaßen beschrieben werden.

Definition (Untere Annäherung). Sei IS=U , A ein Informationssystem,B⊆A eine Teilmenge von Attributen und X⊆U eine Teilmenge von Objekten.

Dann kann X durch

B∗X ={xi∈U ∣B x i⊆X }

von unten angenähert werden.

Die obere Annäherung B∗X resultiert aus der Vereinigungsmenge all jener elementaren Mengen, deren Schnitt mit der Menge X mindestens ein Element enthält. Die obere Annäherung ist somit die minimale Vereinigungsmenge von elementaren Mengen, die die Menge X enthält. Die nachfolgende Definition verdeutlicht diesen Sachverhalt.

Definition (Obere Annäherung). Sei IS=U , A ein Informationssystem, B⊆Aeine Teilmenge von Attributen und X⊆U eine Teilmenge von Objekten. Dann kann

X durch

B∗X ={xi∈U ∣B x i∩X≠0 }

von oben angenähert werden.

Die Menge X wird als scharf bezeichnet, wenn die untere Annäherung B∗X gleich der oberen Annäherung B∗ X ist. Gilt dagegen B∗ X ≠B∗ X , so wird die Menge X als grob bezeichnet. Die untere Annäherung ist somit die maximale scharfe Menge, die in der Menge X enthalten ist. Die obere Annäherung stellt dagegen die minimale scharfe Menge dar, die die Menge X enthält. Auf diese Art und Weise ermöglichen B∗X und B∗X eine Annäherung grober Mengen durch scharfe Mengen vorzunehmen.

Definition (Grenzregion). Sei IS=U , A ein Informationssystem, B⊆A eine Teilmenge von Attributen und X⊆U eine Teilmenge von Objekten. Dann wird die Menge

13


BN B X =B∗ X −B∗ X

als Grenzregion von X bezeichnet.

Die Abbildung 3.2 verdeutlicht noch einmal diesen Zusammenhang. Dabei werden drei Regionen einer groben Menge unterschieden.

POS B=B∗ (Sicher ja)

NEG B=U−B∗ (Sicher nein)

BR B=B∗−B∗(Ja oder nein)

Die positive Region POS B enthält also alle Objekte aus U , die – basierend auf dem sich aus der Attributmenge B ergebenden Wissen – mit Sicherheit der Menge

X zugewiesen werden können.

Abbildung 3.2: Schematische Darstellung der Annäherungen und deren Regionen [Ril09]

Die negative Region NEG B enthält dagegen alle Objekte aus U , die sich mit Sicherheit der Menge X nicht zuordnen lassen. Die Grenzregion BR B ist eine Teilmenge der oberen Annäherung, die alle Objekte aus U enthält, die sich möglicherweise der Menge X zuordnen lassen. Die in der unteren Annäherung enthaltenen Objekte führen somit zu sicheren Regeln, jene der oberen Annäherung zu möglichen Regeln (siehe Abschnitt 2.3, Abschnitt 4.2 und Abschnitt 4.3).

Beispiel 1

Betrachten wir das Beispiel aus dem Abschnitt 2.3. Dann erhalten wir anhand der Tabelle 3.1 für die Menge X = { p1, p2, p4 } und die Attributmenge B = { Headache, Muscle-pain, Temperature } die folgenden Annäherungen.

B∗ X = {p1 , p4}

14


B∗X ={p1 , p2 , p5 , p4 }BN B X = {p1 , p2 , p5 , p4} − {p1 , p4}= {p2 , p5 }

Beispiel 2

Anhand der Tabelle 3.2 erhalten wir für die Menge X = { p1, p3, p4 } und die Attribut-menge B = { Headache, Muscle-pain } die folgenden Annäherungen.

B∗X = {p3}

B∗X = {p1 , p4 , p6 , p3}BN B X = {p1 , p4 , p6 , p3}− {p3}= {p1 , p4 , p6 }

3.5 Reduktion der Attribute – Redukte und KerneIm vierten Schritt der Rough-Set-Analyse für Informationssysteme (siehe Abbildung 3.1 – 4) wird die Möglichkeit untersucht, ob bei geringerer Attributzahl identisches Wissen modelliert werden kann. Damit das zu betrachtende Informationssystem vereinfacht werden kann, müssen redundante Attribute des vorliegenden Informa-tionssystems eliminiert werden. Mathematisch lässt sich dieser Sachverhalt wie folgt beschreiben.

Definition (Redukt). Sei B⊆A und a∈B . Dann sind folgende Aussagen möglich:

1. a heißt verzichtbar bezüglich der Attributmenge B , falls I B=I B−{a } gilt. Andernfalls heißt a unverzichtbar bezüglich B . 2. B heißt unabhängig, falls alle Attribute von B unverzichtbar sind.

3. Eine Teilmenge B '⊆B ist ein Redukt von B , falls B ' unabhängig ist, und es gilt I B ' =I B .

Ein Redukt ist somit eine Menge von Attributen, die die jeweilige Partition des Universums aufrechterhält, denn ein Redukt umfasst eine minimale Teilmenge von Attributen, die – wie die entsprechende Gesamtmenge von Attributen – dieselbe Klassifikation von Elementen ermöglicht. Deshalb sind solche Attribute, die keinem Redukt angehören, überflüssig bezüglich der Klassifikation von Elementen des entsprechenden Universums.

Definition (Kern). Sei IS=U , A ein Informationssystem und B⊆A eine Teilmenge von Attributen. Dann wird der Kern von B durch

Core B= Reduct B

definiert, wobei Reduct B die Menge aller Redukte von B ist.

Da der Kern als Schnittmenge aller Redukte definiert ist, kommt er also in jedem Redukt vor, d.h. der Kern stellt somit die wichtigste Teilmenge von Attributen dar, so

15


dass sich mit der Eliminierung eines im Kern enthaltenen Attributs die Klassifikation bezüglich der restlichen Attributmenge ändert und einen Informationsverlust bewirkt. Durch die Eliminierung überflüssiger Attribute wird dagegen das Informationssystem vereinfacht und die weitere Bearbeitung und Handhabung der Daten erleichtert. Um Redukte und den zugehörigen Kern schneller und einfacher berechnen zu können, wird im Folgenden der Begriff der Unterscheidbarkeitsmatrix eingeführt.

Definition (Unterscheidbarkeitsmatrix). Sei IS=U , A ein Informationssystem mit n Objekten. Dann ist die Unterscheidbarkeitsmatrix M B von B⊆A eine symmetrische n×n Matrix mit den Einträgen c ij , so dass gilt:

c ij={a∈A∣ f ax i≠ f a x j} für i , j=1, ... , n .

Somit lässt sich der Eintrag c ij als Menge der Attribute interpretieren, in denen sich das Objekt x i vom Objekt x j unterscheidet. Die Unterscheidbarkeitsmatrix M B ordnet also jedem Paar von Objekten x und

y eine Teilmenge von Attributen x , y ⊆B zu, so dass folgende Eigenschaften gelten:

x , x = ∅

x , y = y , x x , z ⊆ x , y ∪ y , z .

Anhand der Unterscheibarkeitsmatrix M B lässt sich der Kern bestimmen, der die Menge aller einelementigen Einträge von M B darstellt.

Core B = {a∈B : cij = {a}} für einige i , j . Jede Unterscheidbarkeitsmatrix M B definiert eindeutig eine Unterscheidbarkeits-funktion (boolesche Funktion) f B , deren Definition im Folgenden erläutert wird.

Definition (Unterscheidbarkeitsfunktion). Sei IS=U , A ein Informationssystem und B⊆A eine Teilmenge von Attributen. Dann ist die Unterscheidbarkeitsfunktion

f B eine boolesche Funktion mit m booleschen Variablen a1, ... , am , die den Attributen a1, ... , am∈B entsprechen, so dass gilt:

f B= ∏x , y∈U 2

{∑x , y : x , y ∈U 2∧x , y ≠∅} ,

wobei ∑x , y die boolesche Summe aller booleschen Variablen ist, die der Menge x , y zugeordnet sind.

Diese Definition ermöglicht einen Zusammenhang zwischen der disjunktiven Normal-form der Funktion f B und der Menge aller Redukte von B herzustellen.

Beispiel 1

Betrachten wir das Beispiel aus dem Abschnitt 2.3. Dann erhalten wir anhand der

16


Tabelle 3.1 für die Attributmenge B = { Headache, Muscle-pain, Temperature } die folgende Unterscheidbarkeitsmatrix.

Set 1 Set 2 Set 3 Set 4 Set 5

Set 1

Set 2 H, M

Set 3 H, T M, T

Set 4 T H, M, T H, T

Set 5 T H, M, T H T

Tabelle 3.3: Unterscheidbarkeitsmatrix in Bezug auf die Attribute Headache, Muscle-pain und Temperature

Anhand der Unterscheidbarkeitsmatrix können wir nun die zugehörige Unterscheid-barkeitsfunktion bestimmen.

f B=HM ×HT ×T×T×M T ×HM T ×HMT ×HT ×H×T

Nach der mehrmaligen Anwendung des Absorptionsgesetzes erhalten wir ein einziges Redukt mit den Attributen – Headache und Temprature.

f B=HM ×H T ×T×M T ×HM T ×H=H×T

Da das Attribut – Muscle-pain – im Redukt nicht enthalten ist, können wir somit auf dieses Attribut verzichten. Wir erhalten:

U/R Headache Temperature

{ p1 } no high

{ p2, p5 } yes high

{ p3 } yes very high

{ p4 } no normal

{ p6 } no very high

Tabelle 3.4: Reduziertes Informationssystem aus der Tabelle 2.1

Beispiel 2

Anhand der Tabelle 3.2 erhalten wir für die Attributmenge B = { Headache, Muscle-pain } die folgende Unterscheidbarkeitsmatrix.

Set 1 Set 2 Set 3

Set 1

Set 2 H, M

17


Set 3 H M

Tabelle 3.5: Unterscheidbarkeitsmatrix in Bezug auf die AttributeHeadache und Muscle-pain

Anhand der Unterscheidbarkeitsmatrix bestimmen wir nun die Unterscheidbarkeits-funktion und stellen fest, dass das Attribut – Temperature – überflüssig ist.

f B=HM ×H×M =H×M

3.6 Reduktion der Attributwerte – Redukte und KerneIm fünften Schritt der Rough-Set-Analyse für Informationssysteme (siehe Abbildung 3.1 – 5) kann die Vereinfachung des vorliegenden Informationssystems fortgesetzt werden, indem auf bestimmte Attributwerte verzichtet wird, die für das Informations-system unrelevant sind, was dennoch ermöglicht, alle bereits bestimmten elementaren Mengen beizubehalten. Die Bestimmung von Redukten in Bezug auf Attributwerte läuft ähnlich wie die Bestimmung von Redukten in Bezug auf Attribute ab. Mathematisch wird dies folgendermaßen verdeutlicht.

Definition (Redukt für Attributwerte). Sei B⊆A und x∈U . Dann sind folgende Aussagen möglich:

1. Der Attributwert von a∈B heißt verzichtbar bezüglich x , falls B x=Bax gilt, wobei Ba=B−{a} . Andernfalls heißt der Attributwert von a unverzichtbar bezüglich x .

2. B heißt orthogonal bezüglich x , falls für jedes Attribut a∈B der zugehörige Attributwert unverzichtbar bezüglich x ist.

3. Eine Teilmenge B '⊆B ist ein Redukt von B bezüglich x , falls B ' orthogonal bezüglich x ist, und es gilt B ' x =B x .

Der Kern in Bezug auf Attributwerte wird genauso bestimmt wie der Kern in Bezug auf Attribute eines Informationssystems (siehe Abschnitt 3.5). Die folgende Definition verdeutlicht dies noch einmal.

Definition (Kern für Attributwerte). Sei IS=U , A ein Informationssystem,B⊆A und x∈U . Dann wird der Kern von B bezüglich x durch

Corex B=Reduct x B

definiert, wobei Reduct x B die Menge aller Redukte von B bezüglich x ist.

Um Redukte und deren Kern bezüglich x zu bestimmen, wird dieselbe Unterscheid-barkeitsmatrix (siehe Abschnitt 3.5) verwendet. Die Definition der Unterscheidbar-keitsfunktion wird dagegen ein bisschen verändert.

18


Definition (Unterscheidbarkeitsfunktion für Attributwerte). Sei IS=U , A ein Informationssystem, B⊆A eine Teilmenge von Attributen und x∈U . Dann ist die Unterscheidbarkeitsfunktion f x B bezüglich x eine boolesche Funktion mit

m booleschen Variablen a1, ... , am , die den Attributen a1, ... , am∈B entspre-chen, so dass gilt:

f x B=∏y∈U

{∑x , y : y∈U∧x , y ≠∅} ,


Somit wird eine Unterscheidbarkeitsfunktion für Attributwerte immer bezüglich eines Objekts oder einer elementaren Menge (Äquivalenzklasse) definiert, so dass man beispielsweise für n elementare Mengen n Unterscheidbarkeitsfunktionen erhält.

Beispiel 1

Anhand der Tabelle 3.4 erhalten wir für die Attributmenge B = { Headache, Tempera-ture } die folgende Unterscheidbarkeitsmatrix.

Set 1 Set 2 Set 3 Set 4 Set 5

Set 1 H H, T T T

Set 2 H T H, T H, T

Set 3 H, T T H, T H

Set 4 T H, T H, T T

Set 5 T H, T H T

Tabelle 3.6: Unterscheidbarkeitsmatrix in Bezug auf die Attribute Headache und Temperature

Für jede einzelne Spalte der obigen Unterscheidbarkeitsmatrix bestimmen wir die jeweilige Unterscheidbarkeitsfunktion.

f 1B=H×HT ×T×T=H×T

f 2B=H ×T×HT ×HT =H×T

f 3B=HT ×T×HT ×H=H×T

f 4B=T×HT ×H T ×T=T

f 5B=T×HT ×H ×T=H×T

Während für die Äquivalenzklassen 1, 2, 3 und 5 alle Attributwerte relevant sind, ist für die Beschreibung der vierten Äquivalenzklasse der Attributwert des Attributs – Headache – überflüssig und wir können somit auf diesen Attributwert verzichten.

Beispiel 2

19


Anhand der Tabelle 3.5 erhalten wir für die Attributmenge B = { Headache, Muscle-pain } die Unterscheidbarkeitsmatrix:

Set 1 Set 2 Set 3

Set 1 H, M H

Set 2 H, M M

Set 3 H M

Tabelle 3.7: Unterscheidbarkeitsmatrix in Bezug auf die AttributeHeadache und Muscle-pain

Die zugehörigen Unterscheidbarkeitsfunktionen können wie folgt bestimmt und verein-facht werden.

f 1B=HM ×H=H

f 2B=HM ×M=M

f 3B=H×M

3.7 Klassifikation der Objekte – Qualität und Genauigkeit Im letzten Schritt der Rough-Set-Analyse für Informationssysteme (siehe Abbildung 3.1 – 6) werden verschiedene Größen herangezogen, um die vorhandene Unsicherheit bzw. die Qualität der vorgenommenen Annäherung/Klassifikation zu bewerten. Dabei unterscheiden wir zwischen drei grundlegenden Größen, die im Folgenden erläutert werden. Definition (Qualität der Annäherung). Sei IS=U , A ein Informationssystem und X⊆U eine Teilmenge von Objekten. Dann wird durch

B X =card B∗ X

card B∗ X mit card B∗ X ≠0

die Qualität der Annäherung von X in IS definiert.

Damit quantitative Größen für die Beschreibung der Qualität und Genauigkeit im Hinblick auf mehrere Mengen von Objekten bestimmt werden können, muss der Begriff der Klassifikation eingeführt werden, der im Folgenden erläutert wird.

Definition (Klassifikation). Sei F={X 1 , X 2 , ... , X n} und X i⊂U eine Familie von Teilmengen von U und B⊆A . Dann heißt F eine Klassifikation von U , falls X i∩X j=∅ und ∪X i=U , so dass gilt

B∗F ={B∗X 1 , B∗ X 2 ,... ,B∗ X n}

B∗F ={B∗X 1 , B∗ X 2 ,... ,B∗ X 2} .

20


Die Qualität einer Klassifikation wird dann wie folgt definiert.

Definition (Qualität der Klassifikation). Sei IS=U , A ein Informationssystem,F eine Klassifikation von U und B⊆A . Dann wird die Qualität der

Beschreibung der Klassifikation F durch

BF =∑i=1

n

card B∗X i

card U

definiert.

Die Genauigkeit einer Klassifikation wird ähnlich wie die Qualität einer Klassifikation definiert, die im Folgenden verdeutlicht wird.

Definition (Genauigkeit der Klassifikation). Sei IS=U , A ein Informations-system, F eine Klassifikation von U und B⊆A . Dann wird die Genauigkeit der Beschreibung der Klassifikation F durch

BF =∑i=1

n

card B∗ X i

∑i=1

n

card B∗ X i

definiert.

Beispiel 1

Anhand des Beispiels aus dem Abschnitt 3.4 erhalten wir für die Menge X = { p1, p2, p4 } und die Attributmenge B = { Headache, Muscle-pain, Temperature } das folgende Ergebnis für die Qualität der Annäherung.

B X =card B∗ X

card B∗ X =24=12

Beispiel 2

Eine beispielhafte Klassifikation mit zwei disjunkten Mengen X1 = { p1, p3, p5 } und X2 = { p2, p4, p6 }, und der Attributmenge B = { Headache, Muscle-pain, Temperature } kann wie folgt beschrieben werden.

Class Number

Number of objects

LowerApproximation

UpperApproximation Accuracy

1 3 card({p1, p3}) = 2 card({p1, p2, p3, p5}) = 4 1/2

2 3 card({p4, p6}) = 2 card({p2, p4, p5, p6}) = 4 1/2

21


Tabelle 3.8: Schematische Darstellung der Klassifikation

Nun können wir anhand der Tabelle 3.8 die Qualität und Genauigkeit der vorliegenden Klassifikation bestimmen. Für die Qualität der Klassifikation erhalten wir:

BF =∑i=1

n

card B∗ X i

card U =226

= 23

Für die Genauigkeit derselben Klassifikation ergibt sich:

BF =∑i=1

n

card B∗X i

∑i=1

n

card B∗X i=2244

=12

22

4 Rough Set – Theorie für Entscheidungssysteme


4.1 Allgemeiner Ablauf der Analyse für Entscheidungssysteme

Da das Ziel der Rough-Set-Theorie für Entscheidungssysteme darin besteht, aus zur Verfügung stehenden Informationen über Objekte regelbasierte Modelle (siehe Abschnitt 2.2) aufzustellen, die ihrerseits wiederum durch Entscheidungsregeln beschrieben werden, gilt es nun zu klären, welche Schritte zur Herleitung solcher Entscheidungsregeln erforderlich sind. In Abbildung 4.1 werden die wichtigsten Aspekte verdeutlicht, die bei der Rough-Set-Analyse für Entscheidungssysteme von Bedeutung sind.

Abbildung 4.1: Ablauf der Analyse für Entscheidungssysteme (Quelle: eigene Darstellung)

Die eingekreisten Nummern in Abbildung 4.1 entsprechen dabei den einzelnen Schritten der Rough-Set-Analyse für Entscheidungssysteme, die in den nachfolgenden Abschnitten näher erläutert werden.

4.2 EntscheidungssystemIm ersten Schritt der Rough-Set-Analyse für Entscheidungssysteme (siehe Abbildung 4.1 – 1) muss die Struktur der Daten festgelegt werden, d.h. wird in einem Informationssystem zwischen zwei Arten von Attributen (Bedingungs- und Entscheidungsattributen) unterschieden, dann spricht man nicht mehr von einem Informations-, sondern von einem Entscheidungssystem. Beispielsweise können die Attribute – Headache, Muscle-pain und Temperature – als Bedingungsattribute betrachtet werden, während das Attribut – Flu – als Entscheidungsattribut. Eine

23


mathematische Definition dafür wird wie folgt verdeutlicht.

Definition (Entscheidungssystem). Sei IS=U ,C ein Informationssystem undD={d 1,d 2, ... , d n} eine Menge von Entscheidungen (mit 1n∞ ), so dassC∩D=∅ . Dann ist S=U ,C ,D ein Entscheidungssystem.

Jede Zeile eines solchen Entscheidungssystems beschreibt eine Entscheidungsregel, die wiederum Entscheidungen (Aktionen) festlegt, die getroffen werden müssen, wenn alle Bedingungen in Form von Bedingungsattributen gelten bzw. erfüllt sind. Die Bedingungen

(Headache, no), (Muscle-pain, yes), (Temperature, high)

aus der Tabelle 2.1 beschreiben eindeutig die Entscheidung

(Flu, yes). Objekte in einem Entscheidungssystem werden als Bezeichnungen für Entscheidungs-regeln verwendet. Die Entscheidungsregeln p1 und p2 aus der Tabelle 2.1 umfassen zwar dieselben Bedingungen, enthalten aber unterschiedliche Entscheidungen. Solche Regeln werden als inkonsistent bezeichnet, andernfalls werden sie als konsistente Regeln betrachtet. Dasselbe gilt auch für Entscheidungssysteme. Entscheidungs-systeme mit inkonsistenten Entscheidungsregeln werden als inkonsistent bezeichnet, andernfalls gelten sie als konsistent. Entscheidungsregeln werden oft in der If-Then-Form dargestellt. Beispielsweise kann die Regel p1 aus der Tabelle 2.1 folgendermaßen ausgedrückt werden

if (Headache, no) and (Muscle-pain, yes) and (Temperature, high) then (Flu, yes)

Eine Menge von Entscheidungsregeln wird als Entscheidungsalgorithmus (decison algorithm) bezeichnet, da er alle Entscheidungsregeln umfasst, die in einem Entscheidungssystem vorkommen können. Allerdings sind Entscheidungssysteme und Entscheidungsalgorithmen keine äquivalenten Begriffe. Ein Entscheidungssystem ist eine Sammlung von Daten, während ein Entscheidungsalgorithmus eine Sammlung von logischen Ausdrücken bzw. Regeln darstellt. Wie wir bereits gesehen haben, um Daten analysieren zu können, werden unterschiedliche mathematische Ansätze heran-gezogen. Damit aber Regeln analysiert werden können, müssen logische Methoden zur Anwendung kommen. Deshalb werden wir in nachfolgenden Abschnitten Entscheidungsregeln in Form von aussagenlogischen Implikationen darstellen, um eine klare Trennung dieser Begriffe zu gewährleisten.

4.3 Abhängigkeiten zwischen Bedingungs- und Entscheidungsattributen

Ein weiterer wichtiger Aspekt in der Datenanalyse besteht darin, dass es Abhängig-keiten zwischen einzelnen Attributen existieren können. Es lässt sich erkennen, dass eine Menge von Attributen D vollständig von einer Menge von Attributen Cabhängt ( C⇒D ) , wenn alle Attributwerte aus D eindeutig durch alle Attribut-werte aus C beschrieben werden. Beispielsweise sind in der Tabelle 2.1 keine vollständigen Abhängigkeiten vorhanden. Wäre der Wert des Attributs – Temperature

24


– für den Patienten p5 nicht „high“, sondern „no“, würde eine vollständige Abhängigkeit {Temperature}⇒{Flu} vorliegen, da jedem Wert des Attributs – Temperature – ein eindeutiger Wert des Attributs – Flu – zugeordnet werden würde.Das Temperature-Attribut aus der Tabelle 2.1 beschreibt jedoch eindeutig nur einige Attributwerte des Flu- Attributs, d.h.

(Temperature, very high) impliziert (Flu, yes)

(Temperature, normal) impliziert (Flu, no)

aber

(Temperature, high) impliziert nicht immer (Flu, yes)

Diese Art der Abhängigkeit ist unvollständig, da nur ein Teil der Attributwerte aus Ddurch Attributwerte aus C beschrieben werden können. Eine formale Definition baut auf der Idee auf, konsistente Regeln bei der Bestimmung der Art der Abhängigkeit zu berücksichtigen. Ein sogennanter Konsistenzfaktor wird in Bezug auf das entsprechende Entscheidungssystem bestimmt und wird als Verhältnis von der Anzahl konsistenter Regeln zur Gesamtzahl der konsistenten und inkonsistenten Regeln aufgefasst. Mathematisch kann dieses Verhältnis wie folgt ausgedrückt werden.

Definition (Konsistenzfaktor). Sei S=U ,C ,D ein Entscheidungssystem. Dann wird der Konsistenzfaktor durch

C , D =card POS C D

card U

mit

POS C D = ∪X ∈U / I DC∗ X

definiert.

Für das Entscheidungssystem aus der Tabelle 2.1 erhalten wir einen Konsistenzfaktor von C , D=4 /6 .Basierend auf dem Wert des Konsistenzfaktors können wir eine Aussage darüber treffen, ob zwischen den Bedingungs- und Entscheidungsattributen eines Entscheid-ungssystems eine vollständige oder eine unvollständige Abhängigkeit vorliegt. Dies wird aus der nachfolgenden Definition ersichtlich.

Definition (Art der Abhängigkeit). Sei C ,D⊆A . Dann sind die folgenden Aussagen möglich: 1. D hängt bis zu einem Grad k 0k1 von C ab, falls k=C , D .

2. D hängt vollständig von C ab, falls k=1 .

3. D hängt teilweise von C ab, falls k1 .

25


Für die Abhängigkeit {Headache ,Muscle−pain ,Temperature}⇒{Flu } aus der Tabelle 2.1 erhalten wir k=4/6=2/3 , da vier von sechs Patienten eindeutig als Personen klassifiziert werden können, bei denen unter Berücksichtigung von den Attributen – Headache, Muscle-pain und Temperature – eine Grippeerkrankung festgestellt bzw. nicht festgestellt werden konnte. Mit Hilfe dieser Methode können wir beispielsweise auch feststellen, wie genau Patienten diagnostiziert werden können, wenn nur ein einziges Attribut in die Analyse einbezogen wird. Für das Temperature-Attribut ergibt sich somit die Abhängigkeit {Temperature}⇒{Flu} mit einem Konsistenzfaktor von k=3/6=1/2 , da in diesem Fall nur drei Patienten p3, p4, und p6 eindeutig klassifiziert werden können. Somit liefert das Temperature-Attribut eine schlechtere Klassifikation als das gleichzeitige Einbeziehen von den Attributen – Headache, Muscle-pain und Temperature. Außerdem kann man auf diese Art und Weise erkennen, dass weder das Headache- noch das Muscle-pain-Attribut dazu verwendet werden können, um eine Grippeerkrankung bei Patienten zu diagnostizie-ren, da die Abhängigkeiten {Headache}⇒{Flu } und {Muscle− pain}⇒{Flu} einen Konsistenzfaktor von k=0 liefern.

4.4 Reduktion der Attribute – relative Redukte und relative Kerne

Im dritten Schritt der Rough-Set-Analyse für Entscheidungssysteme (siehe Abbildung 4.1 – 3) werden relative Redukte und relative Kerne bestimmt, indem das Prinzip der Redukte und Kerne für ein Informationssystem, auf ein Entscheidungssystem übertragen werden. Dabei wollen wir, wie bei Informationssystemen, herausfinden, ob redundante Attribute auch in Entscheidungssystemen vorkommen, auf die verzichtet werden kann. Für diesen Zweck wird das Konzept der Redukte für Informationssyste-me ein bisschen angepasst.

Definition (D-Redukt). Sei C , D⊆A . Dann sind folgende Aussagen möglich:

1. Das Attribut a∈C heißt D-verzichtbar bezüglich C , falls POS C D =POS C−{a }D gilt. Andernfalls heißt das Attribut a D-unverzichtbar bezüglich C .

2. C heißt D-unabhängig, falls alle Attribute a∈C D-unverzichtbar bezüglich C sind.

3. Eine Teilmenge C '⊆C ist ein D-Redukt von C , falls C ' D-unabhängig ist, und es gilt POS C D=POSC ' D .

Der relative Kern in Bezug auf Bedingungsattribute wird genauso bestimmt wie der Kern in Bezug auf Attribute eines Informationssystems (siehe Abschnitt 3.5). Die folgende Definition verdeutlicht dies noch einmal.

Definition (D-Kern). Sei S=U ,C ,D ein Entscheidungssystem. Dann wird die Menge von allen D-unverzichtbaren Attributen in C durch

CoreD C=ReductDC

26


definiert, wobei ReductD C die Menge aller D-Redukte von C ist. Relative Redukte können ebenfalls mit Hilfe der Unterscheidbarkeitsmatrix bestimmt werden. Allerdings muss diese so angepasst werden, dass dabei auch die Entscheid-ungsattribute berücksichtigt werden.

Definition (Unterscheidbarkeitsmatrix für D-Redukte). Sei S=U ,C ,D ein Entscheidungssystem mit n Objekten. Dann ist die Unterscheidbarkeitsmatrix

M DC von C eine symmetrische n×n Matrix mit den Einträgen c ij , so dass gilt:

c ij={a ∈ C : f x i≠ f x j∧w x i , x j} ,

wobei

w x i , x j≡x i∈POSCD∧x j∉POSC D∨x i∉POSC D∧ x j∈POSC D ∨xi , x j∈POSC D ∧x i , x j∉I D

für i , j=1,2, ... , n .

Somit stellt der Eintrag c ij die Menge von allen Attributen dar, so dass die Objektex i und x j in Bezug auf die Attribute aus c ij voneinander unterschieden werden

können, wenn sie aber nicht derselben Äquivalenzklasse der Relation I Dangehören. Aus jeder Unterscheidbarkeitsmatrix M DC resultiert eine eindeutige Unterscheidbarkeitsfunktion (boolesche Funktion) f DC , die genauso definiert wird, wie die Unterscheidbarkeitsfunktion f B (siehe Abschnitt 3.5).

Beispiel 1

Anhand der Tabelle 2.1 erhalten wir in Bezug auf das Entscheidungsattribut – Flu – zwei Äquivalenzklassen { p1, p2, p3, p6 } und { p4, p5 }. Nun können wir eine Unterscheidbarkeitsmatrix aufstellen, indem Objekte nur aus unterschiedlichen Äquivalenzklassen bezüglich der Attributmenge C = { Headache, Muscle-pain, Tempe-rature } voneinander unterschieden werden.

p1 p2 p3 p4 p5 p6

p1 -

p2 - -

p3 - - -

p4 T H, M, T H, T -

p5 H, M - M, T - -

p6 - - - T H, M, T -

Tabelle 4.1: Unterscheidbarkeitsmatrix in Bezug auf die Attribute Headache, Muscle-pain und Temperature

27


Die zugehörige Unterscheidbarkeitsfunktion liefert also zwei Redukte:

f DC =T×HM ×HMT ×HT ×M T ×T×HMT =HM ×T=H×TM×T

Die Existenz von zwei Redukten ermöglicht, dass wir das Ausgangsentscheidungs-system auf zwei vereinfachte Entscheidungssysteme reduzieren:

Patient Headache Temperature Flu

p1 no high yes

p2 yes high yes

p3 yes very high yes

p4 no normal no

p5 yes high no

p6 no very high yes

Tabelle 4.2: Reduziertes Entscheidungssystem aus der Tabelle 2.1

Patient Muscle-pain Temperature Flu

p1 yes high yes

p2 no high yes


p4 yes normal no

p5 no high no


Tabelle 4.3: Reduziertes Entscheidungssystem aus der Tabelle 2.1

4.5 Reduktion der Attributwerte – relative Redukte und relative Kerne

Im vierten Schritt der Rough-Set-Analyse für Entscheidungssysteme (siehe Abbildung 4.1 – 4) werden relative Redukte und relative Kerne in Bezug auf Attributwerte bestimmt, um eine weitere Vereinfachung der Daten im zu analysierenden Entschei-dungssystem zu erreichen. Genauso wie bei Informationssystemen, kommt auch bei Entscheidungssystemen die Idee der Redukte und Kerne zur Anwendung, aber jedoch in einer leicht modifizierten Fassung.

Definition (D-Redukt für Attributwerte). Sei C ein relatives D-Redukt, C⇒Deine Abhängigkeit und x∈U . Dann sind folgende Aussagen möglich:

1. Der Attributwert von a∈C heißt D-verzichtbar bezüglich x , falls

C x ⊆D x impliziert Ca x⊆D x .

28


Andernfalls ist der Attributwert von a D-unverzichtbar bezüglich x .

2. C heißt D-unabhängig (orthogonal) bezüglich x , falls für jedes Attribut a∈C der zugehörige Attributwert D-unverzichtbar bezüglich x ist.

3. Eine Teilmenge C '∈C ist ein D-Redukt von C bezüglich x , falls C ' D-unabhängig bezüglich x ist, und es gilt

C x ⊆D x impliziert C ' x⊆Dx .

Auch der D-Kern für Attributwerte wird analog zur Definition des Kerns für Attributwerte eines Informationssystems (siehe Abschnitt 3.6) definiert.

Definition (D-Kern für Attributwerte). Sei S=U ,C ,D ein Entscheidungs-system. Dann wird die Menge von allen D-unverzichtbaren Attributwerten bezüglich

x in C durch

CoreDx C=ReductD

x C

definiert, wobei ReductDx C die Menge aller D-Redukte von C bezüglich x ist.

Um relative Redukte und deren relativen Kern bezüglich x zu bestimmen, wird die Unterscheidbarkeitsmatrix M DC (siehe Abschnitt 4.4) verwendet. Die Definition der Unterscheidbarkeitsfunktion wird dabei genauso spezifiziert, wie die Unterscheid-barkeitsfunktion f x B für Informationssysteme.

Definition (D-Unterscheidbarkeitsfunktion). Sei S=U ,C ,D ein Entschei-dungssystem und x∈U . Dann ist die Unterscheidbarkeitsfunktion f D

x C bezüglich x eine boolesche Funktion mit m booleschen Variablen c1, ... , cm , die den Bedingungsattributen c1, ... , cm∈C entsprechen, so dass gilt:

f Dx C =∏

y∈U{∑x , y : y∈U∧x , y ≠∅} ,


Beispiel 1

Anhand der Tabelle 4.2 stellen wir nun ausgehend von den Äquvalenzklassen { p1, p2, p3, p6 } und { p4, p5 } eine Unterscheidbarkeitsmatrix auf, um relative Redukte für Attributwerte in Bezug auf die Attributmenge C = { Headache, Temperature } zu bestimmen.

p1 p2 p3 p4 p5 p6

p1 – – – T H –

p2 – – – H, T – –

29


p3 – – – H, T T –

p4 T H, T H, T – – T

p5 H – T – – H, T

p6 – – – T H, T –

Tabelle 4.4: Unterscheidbarkeitsmatrix in Bezug auf die Attribute Headache und Temperature

Für jede einzelne Spalte der obigen Unterscheidbarkeitsmatrix bestimmen wir die jeweilige Unterscheidbarkeitsfunktion.

f D1 C =T×H

f D2 C =HT

f D3 C =HT ×T=T

f D4 C =T×HT ×HT ×T=T

f D5 C =H×T×HT =H×T

f D6 C =T×HT =T

Das vereinfachte Entscheidungssystem kann nun wie folgt dargestellt werden.

Patient Headache Temperature Flu

p1 no high yes

p2 yes high yes

p3 – very high yes

p4 – normal no

p5 yes high no


Tabelle 4.5: Vereinfachtes Entscheidungssystem aus der Tabelle 4.2

Beispiel 2

Analog zum obigen Beispiel können wir das Entscheidungssystem aus der Tabelle 4.3 vereinfachen und erhalten somit die zweite vereinfachte Darstellung für das Entschei-dungssystem aus der Tabelle 2.1.

Patient Muscle-pain Temperature Flu

p1 yes high yes

p2 no high yes


p4 – normal no

30


p5 no high no


Tabelle 4.6: Vereinfachtes Entscheidungssystem aus der Tabelle 4.3

4.6 EntscheidungsregelnSobald die relativen Redukte in Bezug auf das Entscheidungsattribut – Flu – anhand der Beispieldaten aus der Tabelle 2.1 bestimmt wurden, können wir aus den daraus resultierenden Daten (siehe Tabelle 4.5 und 4.6) Entscheidungsregeln ablesen (siehe Abbildung 4.1 – 5). Die Tabelle 4.5 lässt sich in Form von Entscheidungsregeln folgendermaßen beschreiben.

if (Headache, no) and (Temperature, high) then (Flu, yes)

if (Headache, yes) and (Temperature, high) then (Flu, yes)

if (Temperature, very high) then (Flu, yes)

if (Temperature, normal) then (Flu, no)

if (Headache, yes) and (Temperature, high) then (Flu, no)


Die Tabelle 4.6 kann mit Hilfe von Entscheidungsregeln wie folgt dargestellt werden.

if (Muscle-pain, yes) and (Temperature, high) then (Flu, yes)

if (Muscle-pain, no) and (Temperature, high) then (Flu, yes)


if (Temperature, normal) then (Flu, no)

if (Muscle-pain, no) and (Temperature, high) then (Flu, no)


Nun gilt es zu klären, wie die hergeleiteten Entscheidungsregeln angewendet werden können, um die Klassifizierung neuer Objekte zu unterstützen. Es gibt hauptsächlich 4 Möglichkeiten, wie das Abgleichen eines neuen Objekts mit bereits vorhandenen Entscheidungsregeln ablaufen kann.

(a) das neue Objekt entspricht genau einer deterministischen Entscheidungs- regel

(b) das neue Objekt entspricht genau einer nicht-deterministischen Entscheid- ungsregel

(c) das neue Objekt entspricht keiner geeigneten Entscheidungsregel

(d) das neue Objekt entspricht mehreren Entscheidungsregeln

Der Fall – a – sieht keine weiteren Schritte vor, da die Zuordnung des neuen Objekts

31


zu einer deterministischen Entscheidungsregel eindeutig ist. Im Fall – b – liegt keine eindeutige Entscheidungsregel vor. Deshalb wird der sogennante Decision Maker eingesetzt, d.h. ihm werden Informationen über die Anzahl der Beispiele (strength) mitgeteilt, welche die jeweilige Entscheidungsregel verstärken sollen. Falls der Koeffizient (Anzahl der Beispiele) einer Klasse größer ist als der Koeffizient anderer Klassen, die ebenfalls von derselben nicht-deterministischen Entscheidungsregel umfasst werden, wird der Decision Maker für das betrachtete Objekt die Entscheidungsregel mit dem größten Koeffizienten auswählen. Im Fall – d – werden dem Decision Maker alle passenden Entscheidungsregeln mitgeteilt. Falls diese Entscheidungsregeln dieselbe Entscheidung beinhalten, dann liegt keine Mehrdeutigkeit vor. Andernfalls wird der Koeffizient jeder einzelnen Regel bestimmt, so dass der Decision Maker genauso wie im Fall – b – vorgehen kann. Der Fall – c – ist der komplizierteste Fall. In diesem Fall müssen dem Decision Maker eine Menge von Entscheidungsregeln mitgeteilt werden, die am besten zur Beschreibung des neuen Objekts passen. Dafür wird ein Distanzmaß eingeführt, damit der Decision Maker mehr Informationen über Objekte in unmittelbarer Nähe des zu klassifizierenden Objekts gewinnen kann. Anhand von diesen Informationen kann dann das neue Objekt entweder als Sonderfall der existierenden Klassen oder als Element einer neuen Klasse betrachtet werden.

32

5 Fazit

5 FazitIn dieser Arbeit haben wir die Rough-Set-Theorie als eine nicht statistische Methode zur Analyse von Daten kennengelernt, die ermöglicht, Objekte in Bezug auf ihre Attributwerte zu charakterisieren, vollständige und unvollständige Abhängigkeiten zwischen Attributen zu finden, überflüssige Attribute zu eliminieren, Kernattribute zu bestimmen und Entscheidungsregeln zu erstellen. Diese Ansätze, die die Rough-Set-Theorie mit sich bringt, können in verschiedenen Bereichen der künstlichen Intelligenz eingesetzt werden, da der Hauptvorteil der Rough-Set-Theorie darin besteht, dass Anwendungen, die diese Ansätze implementieren, parallel auf mehreren Rechnern laufen können, was die Laufzeit zur Bestimmung von Entscheidungsregeln deutlich verkürzen kann. Der aktuelle Stand der Forschung im Bereich der Rough-Set-Theorie äußert sich darin, dass neue Konzepte entwickelt werden, wie die Rough-Set-Theorie mit anderen Methoden wie Fuzzy-Logik [Lia01], Neuronalen Netzen [Cmm03] und Expertensystemen [Sha09] kombiniert werden kann.Zusammenfassend lässt sich sagen, dass die Rough-Set-Theorie eine erfolgreiche Methode zur Analyse von Daten darstellt, die bereits in solchen Bereichen wie Medizin, Finanzwesen, Sicherheit der Energiesysteme, Spracherkennung und Bildverarbeitung zur Anwendung kommt.

33

Literatur

Literatur

Cmm03 Chun-Yan, Yu; Ming-hui, Wu; Ming, Wu: Combining Rough Set Theory with Neural Network Theory for Pattern Recognition. Proceedings of the 2003 IEEE - International Conference on Robotics, Intelligent Systems and Signal Processing, 2003

Kps Komorowski, Jan; Polkowski, Lech; Skowron, Andrzej: Rough Sets: A Tutorial. http://secs.ceas.uc.edu/~mazlack/dbm.w2011/Komorowski.RoughSets.tutor.pdf (Stand 5.11.2012)

Lia01 Li, Yu-Rong; Jiang, Jing-Ping: The integrated methodology of rough sets theory, fuzzy logic and genetic algorithms for multisensor fusion. Proceedings of the American Control Conference, 2001

Lud07 Luderer, Bernd: Die Kunst des Modellierens – Mathematisch-ökonomische Modelle. Vieweg+Teubner Verlag, 2007

Orw00 Ohrn, Aleksander; Rowland, Todd: Rough Sets: A Knowledge Discovery Technique for Multifactorial Mediacal Outcomes. Am. J. Phys. Med. Rehabil. 79, 2000

Paw Pawlak, Zdzislaw: Rough Set Elements (1). http://chc60.fgcu.edu/images/articles/RoughSetElements1.pdf (Stand 3.11.2012)

Ril09 Rissino, Silvia; Lambert-Torres, Germano: Rough Set Theory – Fundamental Concepts, Principals, Data Extraction, and Applications. Data Mining and Knowledge Discovery in Real Life Applications, I-Tech, 2009

Sha09 Shao, Xin-Yu; Chu, Xue-Zheng; Qiu, Hao-Bo; Gao, Liang; Yan, Jun: An expert system using rough sets theory for aided conceptual design of ships's engine room automation. Expert Systems with Application 36, 2009

Wam99 Walczak, B.; Massart, D.L.: Tutorial – Rough sets theory. Chemometrics and Intelligent Laboratory Systems, 1999

34

http://secs.ceas.uc.edu/~mazlack/dbm.w2011/Komorowski.RoughSets.tutor.pdf

http://secs.ceas.uc.edu/~mazlack/dbm.w2011/Komorowski.RoughSets.tutor.pdf

http://chc60.fgcu.edu/images/articles/RoughSetElements1.pdf

Rough Set Theory (Grobe Logik)

Documents

Transcript of Rough Set Theory (Grobe Logik)