Data Mining Standards am Beispiel von · PDF fileData Mining Standards am Beispiel von PMML...

20
Data Mining Data Mining Standards Standards am Beispiel von PMML am Beispiel von PMML Data Mining Standards am Beispiel von PMML

Transcript of Data Mining Standards am Beispiel von · PDF fileData Mining Standards am Beispiel von PMML...

Page 1: Data Mining Standards am Beispiel von · PDF fileData Mining Standards am Beispiel von PMML Knowledge Discovery in Databases (KDD) •umfasst den gesamten Findungsprozess •Data Mining

Data Mining Data Mining Standards Standards

am Beispiel von PMMLam Beispiel von PMML

Data Mining Standards am Beispiel von PMML

Page 2: Data Mining Standards am Beispiel von · PDF fileData Mining Standards am Beispiel von PMML Knowledge Discovery in Databases (KDD) •umfasst den gesamten Findungsprozess •Data Mining

Data Mining (DM)„ Ein Prozess, um interessante neue Muster, Korrelationen

und Trends in großen Datenbeständen zu entdecken, um

damit entscheidungsunterstützende Prognose-Modelle zu

erstellen.“ (nach Pasquale Borelli)

Allgemeine Definitionen im Data Mining

Data Mining Standards am Beispiel von PMML

Page 3: Data Mining Standards am Beispiel von · PDF fileData Mining Standards am Beispiel von PMML Knowledge Discovery in Databases (KDD) •umfasst den gesamten Findungsprozess •Data Mining

Data Mining Standards am Beispiel von PMML

Knowledge Discovery in Databases (KDD)•umfasst den gesamten Findungsprozess

•Data Mining ist somit ein Teilschritt des KDD

•beschreibt automatisierte Verfahren, mit denen unter Anwendung von Data Mining Methoden, Regelmäßigkeiten in Mengen von Datensätzen gefunden werden können

Page 4: Data Mining Standards am Beispiel von · PDF fileData Mining Standards am Beispiel von PMML Knowledge Discovery in Databases (KDD) •umfasst den gesamten Findungsprozess •Data Mining

Data Mining Standards am Beispiel von PMML

Data Warehouse•ist prinzipiell ein Datenspeicher

•stellt zentrale Sammelstelle für Unternehmensdaten dar

•jeder Mitarbeiter bekommt individuelle Informationen

•Löschen von Daten ist normalerweise nicht möglich

On-Line Analytical Processing (OLAP)•Technik, die eine Vielzahl von Sichten und Darstellungsmöglichkeiten von Basisdaten erlaubt

•ergänzt somit Datenbanken mit analytischen Funktionen

•Daten können dadurch sofort graphisch umgesetzt werden

Page 5: Data Mining Standards am Beispiel von · PDF fileData Mining Standards am Beispiel von PMML Knowledge Discovery in Databases (KDD) •umfasst den gesamten Findungsprozess •Data Mining

Data Mining Standards am Beispiel von PMML

Data Mart•ist Subsystem eines Data Warehouse

•lediglich auf wenige Betriebsbereiche beschränkt

•kann auch alleine für Data Mining- oder OLAP-Zwecke genutzt werden

Page 6: Data Mining Standards am Beispiel von · PDF fileData Mining Standards am Beispiel von PMML Knowledge Discovery in Databases (KDD) •umfasst den gesamten Findungsprozess •Data Mining

Der Data Mining Prozess nach CRISP-DM

Data Mining Standards am Beispiel von PMML

Page 7: Data Mining Standards am Beispiel von · PDF fileData Mining Standards am Beispiel von PMML Knowledge Discovery in Databases (KDD) •umfasst den gesamten Findungsprozess •Data Mining

Data Mining Standards am Beispiel von PMML

Business Understanding•Anfangsphase

•konzentriert sich auf Formulierung des Projektziels aus Sicht des Anwenders

•erstellt Problemdefinition und vorläufigen Plan

Data Understanding•Beginn der Datenauswahl

•Probleme der Datenqualität, interessante Teilmengen entdecken

Page 8: Data Mining Standards am Beispiel von · PDF fileData Mining Standards am Beispiel von PMML Knowledge Discovery in Databases (KDD) •umfasst den gesamten Findungsprozess •Data Mining

Data Mining Standards am Beispiel von PMML

Data Preparation•Generierung der endgültigen Analysedaten (durch Transformationen und Entfernen von „Datenschmutz“)

Modelling•Auswahl verschiedener Verfahren und Festlegung zugehöriger Parameter

Evaluation•Bewertung und Überprüfung des aufgestellten Modells

Page 9: Data Mining Standards am Beispiel von · PDF fileData Mining Standards am Beispiel von PMML Knowledge Discovery in Databases (KDD) •umfasst den gesamten Findungsprozess •Data Mining

Data Mining Standards am Beispiel von PMML

Motivation für Standards im Data Mining•DM-Prozess meist als kleiner Teil eines größeren Prozesses

•dadurch Input-Daten oft in unterschiedlichen Formen gegeben und Output-Daten in unterschiedlichen Formen benötigt

•Probleme bei der Verwendung verschiedener Software-Tools für einzelne Teilbereiche (Datenaustausch oft nicht einfach)

Page 10: Data Mining Standards am Beispiel von · PDF fileData Mining Standards am Beispiel von PMML Knowledge Discovery in Databases (KDD) •umfasst den gesamten Findungsprozess •Data Mining

Data Mining Standards am Beispiel von PMML

Anwendungsgebiete heutiger Standards•Modelle: Um DM- und statistische Daten zu repräsentieren (vereinfacht den Austausch von Modellen)

•Attribute: Säuberung, Transformation und Sammeln von Attributen; richten sich an die Teilbereiche "Modelling" und "Data Preparation“

•Interfaces und APIs: Um Verbindung zu anderen Sprachen und Systemen zu schaffen (z.B. SQL/MM Part6: Data Mining)

•Einstellungen: Um die internen Parameter abzubilden, die für das Aufstellen und den Gebrauch der Modelle benötigt werden

•Prozess: gesamter DM-Prozess, z.B. wie er von CRISP-DM beschreieben wird

Page 11: Data Mining Standards am Beispiel von · PDF fileData Mining Standards am Beispiel von PMML Knowledge Discovery in Databases (KDD) •umfasst den gesamten Findungsprozess •Data Mining

Data Mining Standards am Beispiel von PMML

Anforderungen an Standards•Austausch von Daten zwischen unterschiedlichen Software-Tools muss problemlos ablaufen können

•DM-Modelle sollten standardisiert unter verschiedenen Anwendungen ausgetauscht werden können

•Standards sollten es ermöglichen, die DM-Modelle in anderen Softwareprodukten integriert anzuwenden

Page 12: Data Mining Standards am Beispiel von · PDF fileData Mining Standards am Beispiel von PMML Knowledge Discovery in Databases (KDD) •umfasst den gesamten Findungsprozess •Data Mining

Data Mining Standards am Beispiel von PMML

PMML allgemein•wurde von der Data Mining Group (www.dmg.org) entworfen, um DM- und statistische Modell zu beschreiben

•beinhaltet auch Beschreibung der Operationen zur Datenbereinigung und -aufbereitung

•versucht, ausreichende Infrastruktur bereitzustellen, sodass eine Anwendung ein Modell konstruieren und eine andere es verwenden kann

•PMML Produzent erstellt Modell, PMML Konsumentwendet es an

•PMML erfüllt somit zumindest einen Teil der Anforderungen

Page 13: Data Mining Standards am Beispiel von · PDF fileData Mining Standards am Beispiel von PMML Knowledge Discovery in Databases (KDD) •umfasst den gesamten Findungsprozess •Data Mining

Data Mining Standards am Beispiel von PMML

Der Aufbau von PMML

Datenbeschreibungsverzeichnis:

•definiert die Input-Attribute der Modelle und die Datentypen und deren Definitionsbereiche

•kann bei mehreren verschiedenen Modellen verwendet werden

Page 14: Data Mining Standards am Beispiel von · PDF fileData Mining Standards am Beispiel von PMML Knowledge Discovery in Databases (KDD) •umfasst den gesamten Findungsprozess •Data Mining

Data Mining Standards am Beispiel von PMML

Mining Schema

•listet Attribute und deren Funktion im Modell auf

•enthält jeweils für ein Modell spezifische Informationen

Transformationsverzeichnis

•kann eine der folgenden Transformationen enthalten und ist zumindest bei manchen Modellen optional

•Normalisierung, Diskretisierung, ‚value mapping‘,Aggregation

Page 15: Data Mining Standards am Beispiel von · PDF fileData Mining Standards am Beispiel von PMML Knowledge Discovery in Databases (KDD) •umfasst den gesamten Findungsprozess •Data Mining

Data Mining Standards am Beispiel von PMML

Modellstatistiken

•beinhaltet univariate Statistiken über Attribute im Modell

Modelle

•enthält die Modellparameter

•mögliche Modelle sind:

•Regressionsmodelle

•Clustermodelle

•Bäume

•neuronale Netze

•Bayes‘sche Modelle

•Sequenzmodelle

Page 16: Data Mining Standards am Beispiel von · PDF fileData Mining Standards am Beispiel von PMML Knowledge Discovery in Databases (KDD) •umfasst den gesamten Findungsprozess •Data Mining

Data Mining Standards am Beispiel von PMML

Syntax von PMML am Bsp. eines Entscheidungsbaumes

Vorhersage = „sonnig“

Vorhersage = „bedeckt“

and

Temperatur >= 30

Freibad

Y N

FreibadNicht

Freibad

Y N

Page 17: Data Mining Standards am Beispiel von · PDF fileData Mining Standards am Beispiel von PMML Knowledge Discovery in Databases (KDD) •umfasst den gesamten Findungsprozess •Data Mining

Data Mining Standards am Beispiel von PMML

1<?xml version="1.0"?> <PMML version="1.1">2 <Header description="Ein kleiner Entscheidungsbaum"/>3 <DataDictionary numberOfFields="3">4 <DataField name="Temperatur" optype="continuous"/>5 <DataField name="Vorhersage" optype="categorical">6 <Value value="sonnig"/>7 <Value value="bedeckt"/>8 <Value value="regnerisch"/>9 </DataField>10 <DataField name="whatIdo" optype="categorical">11 <Value value="Freibad"/>12 <Value value="nicht Freibad"/>13 </DataField>14 </DataDictionary>15 <TreeModel modelName="Schwimmen gehen">16 <MiningSchema>17 <MiningField name="Temperatur"/>18 <MiningField name="Vorhersage"/>19 <MiningField name="whatIdo" usageType="predicted"/>20 </MiningSchema>

Page 18: Data Mining Standards am Beispiel von · PDF fileData Mining Standards am Beispiel von PMML Knowledge Discovery in Databases (KDD) •umfasst den gesamten Findungsprozess •Data Mining

Data Mining Standards am Beispiel von PMML

21 <Node score="Freibad">22 <Predicate field="Vorhersage" operator="equal" value="sonnig"/>23 <Node score="Freibad" <True/> </Node>24 <Node score="Freibad">25 <CompoundPredicate booleanOperator="and">26 <Predicate field="Vorhersage" operator="equal" value="bedeckt"/>27 <Predicate field="Temperatur" operator="greaterThan" value="30"/>28 </CompoundPredicate>29 <Node score="Freibad"> <True/> </Node>30 <Node score="nicht Freibad"> <True/> </Node>31 </Node>32 </Node>33 </TreeModel>34</PMML>

Page 19: Data Mining Standards am Beispiel von · PDF fileData Mining Standards am Beispiel von PMML Knowledge Discovery in Databases (KDD) •umfasst den gesamten Findungsprozess •Data Mining

Data Mining Standards am Beispiel von PMML

Verbreitung und Zukunft von PMML

•mittlerweile von vielen führenden Unternehmen in ihre Produkte integriert:

•Oracle

•Microsoft (OLE DB)

•IBM (intelligent miner)

•Schnittstellen zu:

•Java

•C++

•CORBA (z.B. mit Xelopes von Prudsys)

Page 20: Data Mining Standards am Beispiel von · PDF fileData Mining Standards am Beispiel von PMML Knowledge Discovery in Databases (KDD) •umfasst den gesamten Findungsprozess •Data Mining

Data Mining Standards am Beispiel von PMML

•SQL bietet mit neuem Standard (voraussichtlich ab Herbst 2003),

SQL Multimedia and Applications Packages Standard, die

Integration von DM-Konzepten in ein Data Warehouse

(„embedded Data Mining“)

•an der PMML-Version 3.0 wird schon gearbeitet

(Version 2.0 ist seit März 2003 auf dem Markt)