Data-Mining-Anwendungsarchitektur
Transcript of Data-Mining-Anwendungsarchitektur
1 Motivation zurEntwicklung der Data-Mining-Anwendungsarchitektur
1.1 Problemstellung
Eine systematische und schnelle Beschaf-fung, Verwaltung, Bereitstellung, Analyseund Interpretation von Daten liefert Infor-mation, die derzeit als die unternehmerischeRessource angesehen wird. Es entstehen inkurzen Zeitraumen Terabyte von Daten, diewertvolle Information fur Entscheider bein-halten und die Anwendung von anspruchs-vollen mathematisch-statistischen Verfahrenzur Datenanalyse erfordern. Dies gilt ins-besondere dann, wenn mehrere Kriterien,die einen Sachverhalt beschreiben, gleichzei-tig berucksichtigt werden sollen und es daru-ber hinaus interessiert, wie stark der Einflussvon einzelnen Kriterien auf diesen Sachver-halt ist. Mit den mathematisch-statistischenVerfahren, die unter Data-Mining-Verfahrenzusammengefasst werden, sind wertvolle
vorverarbeitende aber auch entscheidungs-unterstutzende Datenanalysen moglich. ImSinne der Vorverarbeitung konnen Hypo-thesen uber Gemeinsamkeiten von Daten-objekten generiert werden, die zu einemgezielten Online Analytical Processing(OLAP) fuhren. Entscheidungsunterstut-zend wirkt Data-Mining durch die Gene-rierung von Modellen zur Abbildung vonInput-Output-Relationen.Nutzer, die bisher wenig oder gar nicht
mathematisch-statistische Analysealgorith-men verwendet haben, aber den Bedarfdiesbezuglich aufgrund der massenhaft an-fallenden Fachdaten erkennen, sehen sichfolgender Situation gegenuber:– zugig zu losende Fachprobleme,– große Datenmengen, die ausgewertetwerden mussen,
– viele zu analysierende Objekte, diedurch mehrere Merkmale unterschiedli-cher Skalenniveaus beschrieben werden,
– einerseits viele Verfahren, andererseitsunkonkrete Bezeichnungen fur Ana-lyseverfahren in Data-Mining-Tools,
– Werkzeuge, die Data-Mining ermogli-chen sollen, aber sehr luckenhafte Ver-fahrensbeschreibungen liefern,
– wenig Know-how zur Anwendung vonData-Mining-Verfahren,
– kostenintensive Berater, deren Kenntnis-se und Leistungen nicht ausreichend be-urteilt werden konnen.
Domanenwissen und Spezialkenntnisseuber die Verwendung mathematisch-statis-tischer Verfahren zur umfassenden Daten-analyse in Personalunion stellen sowohl inder Praxis als auch in der Wissenschaft nochdie Ausnahme dar. Aus der zu erwartendenZunahme von Data-Mining-Anwendungenleitet sich daher dringender Bedarf an einemInstrumentarium ab, welches es auchNichtspezialisten ermoglicht, auf Fachwis-sen uber Data-Mining zuzugreifen.
WIRTSCHAFTSINFORMATIK 46 (2004) 1, S. 15–21
Der Autor
Helge Petersohn
Dr. Dipl.-Ing.-�k. Helge PetersohnNHConsult GmbHArno-Nitzsche-Str. 43–4504277 Leipzig0341 [email protected]
Data-Mining-Anwendungsarchitektur
Kernpunkte fur das Management
In diesem Beitrag wird eine Anwendungsarchitektur fur Data-Mining vorgestellt, deren we-sentlicher Nutzen darin besteht, systematisch aufgearbeitete Data-Mining-Verfahren anwen-dungsbezogen zu strukturieren und zu offerieren. Die Data-Mining-Anwendungsarchitektur(DMA) stellt eine Entscheidungs- und Strukturierungshilfe bei Data-Mining-Problemstellun-gen fur Anwender, Wissenschaftler und Studenten dar.Die Architektur liefert eine offene Struktur mit:
& Architekturkomponenten zur Integration von Daten, Methoden und prinzipiellen Vor-gehensmodellen (Klassenbildung),
& Applikationsreferenzen mit anwendungsgruppenspezifischen Modellen (Portalanalyse)und
& Referenzszenarien mit konkreten anwendungsspezifischen Modellen (Webshopanalyse).
Stichworte: Data-Mining, Data-Mining-Methoden, Anwendungsarchitektur, Architektur-komponenten, Applikationsreferenzen, Referenzszenarien, Data-Mining-Prozess, Entschei-dungsunterstutzung
WI – Schwerpunktaufsatz
In diesem Beitrag wird dazu eine An-wendungsarchitektur fur Data-Mining vor-gestellt, deren wesentlicher Nutzen darinbesteht, systematisch aufgearbeitete Data-Mining-Verfahren anwendungsbezogen zustrukturieren und zu offerieren. Die Data-Mining-Anwendungsarchitektur (DMA)stellt somit eine Entscheidungs- und Struk-turierungshilfe fur Anwender, Wissen-schaftler und Studenten dar.
1.2 Phasen und Algorithmendes Data-Mining-Prozesses
Beim Data-Mining spielt der Begriff Mus-ter eine zentrale Rolle. Je nach Ana-lysekontext sind verschiedene Muster vonInteresse, z. B. Sprachmuster, Warenmus-ter, Kaufmuster, Gebrauchsmuster, Bild-muster, Textmuster, Verhaltensmuster, Pro-zessmuster, Problemmuster usw.Die Aufgabe des Data-Mining besteht
darin, Daten derart zu analysieren, dassMuster und deren Strukturmodelle erkanntwerden. Diese Strukturmodelle stellen dieschematische Aufbereitung und Typisie-rung der Daten unter dem Aspekt eineskonkreten Analyse- und Anwendungszielsdar. Die Typisierung bezieht sich in diesemKontext auf den semantischen Aspekt.Data-Mining beschreibt somit einen
Analyseprozess, der aus Daten entschei-dungsrelevante Zusammenhange herleitet.Die Prozessschritte werden nicht sequen-ziell durchlaufen, sondern weisen Ruck-sprunge auf. Es handelt sich um einen itera-tiven Prozess, der weitgehend automatisiertsein sollte. Pragende Arbeiten hierfur lie-ferten u. a. [ChBu97; FPS96; HBM96;Kupp99;Wild01].Die aus theoretischer Sicht wichtigsten
Phasen von Data-Mining-Prozessen sind:– Datenselektion,– Datenaufbereitung,– Datenanalyse (Klassenbildung, Assozia-tionsanalyse, Klassifizierung, Zeitreihen-analyse und Optimierung von Modell-parametern) und
– Modellevaluierung [Pete03].Das prinzipielle Vorgehen beim Data-Mining ist in [Pete03] abgebildet.In der Fachliteratur werden fur die ein-
zelnen Phasen sehr viele Algorithmen vor-gestellt. Fur die theoretische Aufbereitung,Einordnung und Analyse sowie fur diepraktische Nutzung ist die �bersicht ver-loren gegangen. Dies erschwert potenziel-len Anwendern (z. B. Wissenschaftlern,Praktikern, Studenten), darunter insbeson-dere Einsteigern, den Zugang zu diesen Ver-fahren und den relevanten Analyseschrit-ten.
2 Aggregation von Phasen,Methoden und Anwendungenzur Data-Mining-Anwendungs-architektur
2.1 Architekturbegriff
Eine Systematisierung der Data-Mining-Verfahren ist diffizil. Dies zeigen auch diezahlreichen in der Literatur diskutiertenAnsatze [Saub00]. Die Systematisierungs-bemuhungen orientieren sich hauptsachlichan den durch die Verfahren zu losendenAufgaben [AlNi00; Kust01; Dusi00].Mit der Einfuhrung des Architektur-
begriffs in [Pete03] wurde eine ganzheitli-che Strukturierung des Data-Mining vor-genommen.Architektur allgemein definiert die
Struktur eines Systems. Diese Strukturbeinhaltet statische und dynamischeAspekte[FoBa01]. Auf den Data-Mining-Prozess bezogen stellen statische Aspektedie Grundprinzipien der Data-Mining-Ver-fahren dar, wahrend die Verwendung derzu variierenden Parameter bei der Skalie-rung, Normierung, bei den Analyseverfah-ren und Evaluierungsmaßen variabel unddamit dynamisch ist.Die Struktur wird durch eine Reihe von
Elementen beschrieben, die durch ihreWechselbeziehungen zusammen darstellen,was als Architektur bezeichnet werdenkann. Die Architektur strukturiert damitnicht nur die Phasen des Data-Mining-Pro-zesses, sondern beinhaltet auch die Einord-nung relevanter Verfahren, Maße und An-wendungen eines Data-Mining-Prozesses.Dazu ist sicherzustellen, dass zwecks An-wendung der Architektur die KriterienDauerhaftigkeit, Robustheit gegenuber�nderungen und leichte Verstandlichkeiterfullt werden. Interessante Ansatze hierzulieferten [FoBa01].Von [FoBa01] wurde bewusst die Art
des Systems nicht festgelegt. Sie unterschei-den zwischen Geschafts-, System- undEntwicklungsarchitektur.Die Geschaftsarchitektur definiert und
strukturiert das Unternehmen und wirddurch Unternehmensziele bestimmt. We-sentliche Elemente sind Prozesse, Ge-schaftsobjekte und Organisationsstruktu-ren. Eine bekannte Architektur hierfurstellt ARIS1, die Architektur fur integrierteInformationssysteme, von [Sche98] dar,wobei die Abgrenzung zu System- undEntwicklungsarchitektur schwierig ist.Die Entwicklungsarchitektur definiert
die Struktur des Entwicklungsprojekts, alsdessen Resultat eine Losung steht. Dazu
gehort die Definition aller Aspekte desProjektmanagements.Die Systemarchitektur beinhaltet die bei-
den zentralen Bereiche softwaretechnischeArchitektur (Softwarekomponenten, funk-tionale Sicht) und Infrastrukturarchitektur(Hardwarekomponenten, holistische undoperationale Sicht) [FoBa01].
2.2 Elemente der Data-Mining-AnwendungsarchitekturBei der DMA handelt es sich um eine pro-zessorientierte Systemarchitektur, die alserster gesamtheitlicher Ansatz zur struktu-rierten und integrierten Darstellung derfunktionalen Zusammenhange beim Data-Mining aufgefasst werden kann. Dies be-zieht sich insbesondere auf die Zusammen-hange zwischen– Data-Mining-Verfahren,– Evaluierungsgroßen,– Datenselektion und -aufbereitung,– Data-Mining-Problemstellungen,– Vorgehensmodellen der Verfahrensklas-sen,
– Anwendungsanforderungen und– Praxisreferenzarchitekturen fur den ge-samten Strukturbereich.
Anwendungsbezogen (Anwendungsdimen-sion) werden diejenigen Verfahrensklassenund deren Evaluierungskriterien (Verfah-rensklassendimension) integriert zusam-mengefasst, die primar Data-Mining-Pro-zessen (Prozessdimension) zugeordnetwerden konnen.Die sich daraus ergebenden drei Dimen-
sionen erfordern jeweils eine DMA-Kom-ponente:– Praxiskomponente (Anwendungsdimen-sion),
– Gegenstandskomponente (Verfahrens-klassendimension) und
– Metakomponente (Prozessdimension).Folgende Inhalte werden den Komponen-ten zugeordnet:Gegenstandskomponente– Basiskomponentenmodell (Algorithmenzur Skalentransformation, Normie-rungsverfahren, Data-Mining-Verfahren,Evaluierungsgroßen)
– operationales Modell (Anforderungender Anwender, Anforderungen an dietechnische Infrastruktur, Anforderungenan die Daten, Standards)
Metakomponente– allgemeines Datenbereitstellungsmodell(Anleitungen zur Datenselektion fur dieZusammenstellung der Datentabellen,auf die die Algorithmen und Großen desBasiskomponentenmodells angewandtwerden sollen)
WIRTSCHAFTSINFORMATIK 46 (2004) 1, S. 15–21
16 Helge Petersohn
– Architekturschablonen im Sinne vonVorgehensmodellen (Anleitungen, Re-geln zur anwendungsbezogenen Umset-zung von Komponenten, Regeln zur Lo-sung von Problemstellungen)
Praxiskomponente fur den gesamten Struk-turbereich– Praxisreferenzarchitektur (Architekturdient projektweise als Referenz zur Eva-luierung und Analyse von Nutzen undDefiziten fur die kontinuierliche Weiter-entwicklung der Architektur, beinhaltetPrototypen)
Bei der DMA handelt es sich um eine inte-grierte Anwendungsarchitektur, deren In-halte im Kontext von Prozessen auf dieanwendungsbezogene Datenanalyse fo-kussiert sind.Fur die DMA-Hierarchie ergeben sich
dazu initial drei Ebenen:– Ebene I – Architekturkomponenten,– Ebene II – Applikationsreferenzen und– Ebene III – Referenzszenarien.
2.3 Ebenen und Komponentender Data-Mining-Anwendungs-architektur
Auf Ebene I werden mithilfe einer Prozess-auswahlmatrix den Komponenten derDMA deren Modelle zugeordnet (vgl.Bild 1). Die Darstellungen werden ausGrunden der Anwendungsnahe, des Refe-renzcharakters, aber auch der Erweite-rungsfahigkeit der DMA mit ARIS1 reali-siert. ARIS1 [Sche98] liefert damit denmethodischen Rahmen fur die Visualisie-
WIRTSCHAFTSINFORMATIK 46 (2004) 1, S. 15–21
Basis-komponenten-modell (BKM)
operationalesModell (OM)
Daten-bereitstellungs-
modell (DM)
Vorgehens-modell (VM)
Gegenstands-komponente
Meta-komponente
Praxis-komponente
Data Mining-Architektur
BKM
OM
DMMeta-
komponente
DMPraxis-
komponente
VMMeta-
komponente
VMPraxis-
komponente
Renditen
Aktienindizes
Wechselkurse
......
VMPraxis-
komponente
Informations-portal
Unternehmen
Webshop
KundenportalVersicherung
BürgerportalKommune
Strom-verbrauch
Wasser-verbrauch
Gas-verbrauch
...
Firmen-kunden
Privat-kunden
...
...Finanz-prognosePortalanalyse Last-
prognoseBonitäts-analyse
Entscheidungs-unterstützungmit Data Mining
Portaleoptimalgestalten
Lastenoptimal
Prognostiz.
Finanz-marktreihenoptimal
Prognostiz.
Bonitätenoptimalbewerten
soziodem.Gruppenoptimal
identifizieren
Kunden-verhalten im
Web
Last-einflüsse und-verteilung
Interdepen-denzen
Finanzmarkt-reihen
Kunden-charakteri-stika
soziodemo-grafische
Beschreibungen
Last-prognose
Finanzmarkt-prognose
Bonitäts-analyse
Personen-gruppierung
Portal-analyse
(Geschäfts-)Prozesseoptimalgestalten
Ressourcen-verbräuche
(Geschäfts-)Prozeß-analyse
Basis-komponenten-modell (BKM)Portalanalyse
operationalesModell (OM)Portalanalyse
Daten-bereitstellungs-modell (DM)Portalanalyse
Vorgehens-modell (VM)Portalanalyse
Informations-portal
UnternehmenWebshop Kundenportal
VersicherungBürgerportalKommune
Portalanalyse
BKMInformations-
portal
BKMWebshop
BKMKundenportalVersicherung
BKMBürgerportalKommune
OMInformations-
portal
OMWebshop
OMKundenportalVersicherung
OMBürgerportalKommune
DMInformations-
portal
DMWebshop
DMKundenportalVersicherung
DMBürgerportalKommune
VMInformations-
portal
VMWebshop
VMKundenportalVersicherung
VMBürgerportalKommune
Szenarien konkreter Applikationen
hinterlegte Modellezur Portalanalyse
hinterlegtes Modellfür Szenario Webshop
Bild 1 Ebene I – Architekturkomponenten mit Hinterlegungen vonModellen fur VM Praxiskomponente
Bild 2 Ebene II – Applikationsreferenzen
Bild 3 Zieldiagramm zur Abbildung des Zusammenhangs vonAnalyseziel (oben), Erfolgsfaktor (mitte) und Analyseprozess (unten)
Bild 4 Ebene III – Zuordnung von Referenzszenarien zu Elementender Gegenstands- und Metakomponente
Data-Mining-Anwendungsarchitektur 17
WIRTSCHAFTSINFORMATIK 46 (2004) 1, S. 15–21
Portalanalyse
VorgehensmodellPraxiskomponente
Portalanalyse
Basis-komponenten-modell (BKM)
operationalesModell (OM)
Daten-bereitstellungs-modell (DM)
Vorgehens-modell (VM)
Gegenstands-komponente
Meta-komponente
Praxis-komponente
Data Mining-Architektur
BKM
OM
DMMeta-
komponente
DMPraxis-
komponente
VMMeta-
komponente
VMPraxis-
komponente
Finanz-prognose
Renditen
Aktienindizes
Wechselkurse
......
VMPraxis-
komponente
Informations-portal
Unternehmen
Webshop
KundenportalVersicherung
BürgerportalKommune
Portalanalyse Lastprognose
Strom-verbrauch
Wasser-verbrauch
Gas-verbrauch
...
Bonitäts-analyse
Firmen-kunden
Privat-kunden
...
...
Basis-komponenten-modell (BKM)Portalanalyse
operationalesModell (OM)Portalanalyse
Daten-bereitstellungs-modell (DM)Portalanalyse
Vorgehens-modell (VM)Portalanalyse
Informations-portal
UnternehmenWebshop
KundenportalVersicherung
BürgerportalKommune
Portalanalyse
BKMInformations-
portal
BKMWebshop
BKMKundenportalVersicherung
BKMBürgerportalKommune
OMInformations-
portal
OMWebshop
OMKundenportalVersicherung
OMBürgerportalKommune
DMInformations-
portal
DMWebshop
DMKundenportalVersicherung
DMBürgerportalKommune
VMInformations-
portal
VMWebshop
VMKundenportalVersicherung
VMBürgerportalKommune
Szenarien konkreter Applikationen
I. Ebene - Architekturkomponenten
II. Ebene - Applikationsreferenzen
III. Ebene - Referenzszenarien
VorgehensmodellPraxiskomponente
Bild 5 Hierarchieebenen der DMA
18 Helge Petersohn
rung und Verknupfung von Komponenteneiner stark prozessbezogenen DMA.
Es werden hinterlegte Modelle durch klei-neModellsymbole angedeutet. So ist hier dasVorgehensmodell fur die Referenzszenariender Praxiskomponente hervorgehoben, daszum einen seine allgemeine Beschreibunginnerhalb der Metakomponente erhalt undzum anderen zu applikationsbezogenenDarstellungen der Praxiskomponente refe-renziert. Dies wird fur die Portalanalyse aufEbene II in Bild 2 deutlich. In einem Funk-tionsbaum werden fur die Praxiskomponen-te mogliche Applikationsreferenzen und de-ren Szenarien zusammengefasst. DieserBaum ist fur weitere Anwendungsfelder be-liebig erweiter- bzw. separierbar.Vorgehensmodelle der Praxiskomponen-
te basieren zwar methodisch auf den Vor-gehensmodellen der Metakomponente,sachbezogen sind sie aber im Zusammen-hang mit praktischen Entscheidungssitua-tionen zu sehen. Diese finden sich in demZieldiagramm in Bild 3 wieder.Auf Ebene III werden den Applikati-
onsreferenzen mit der Prozessauswahl-matrix Referenzszenarien zugeordnet.
Wahrend die Applikationsreferenzen all-gemeingultig fur gleichartige Problemeformuliert werden konnen, spiegeln sichin den Szenarien Varianten von Applikati-onsreferenzen wider. So lauft bspw. dieAnalyse des Nutzerverhaltens in Portalenfur verschiedene Varianten ahnlich ab. Inder konkreten Anwendung ergeben sichdennoch Unterschiede, bspw. zwischender Analyse eines Webshopportals oderdes Informationsportals eines Unterneh-mens (vgl. Bild 4).Bild 5 fasst den Zusammenhang der drei
Hierarchieebenen zusammen.Die Gegenstandskomponente der DMA
umfasst im Basiskomponentenmodell Ver-fahren zur Skalentransformation und Nor-mierung, Data-Mining-Algorithmen undEvaluierungsgroßen (vgl. Bild 8). DerenZusammenspiel im Data-Mining-Prozesswird in Vorgehensmodellen abgelegt. Zubeachtende methodische Details werden in[Pete03] behandelt.Ausgangspunkt fur die Forderung nach
neuen Analyseresultaten, und damit fur dieSuche von geeigneten Verfahren, sind ei-nerseits Informationsdefizite der Entschei-
der und andererseits Hoffnungen, diese ausden inzwischen sehr großen internen undexternen Datenbestanden ausgleichen zukonnen. Diesem Aspekt wird mit demDatenbereitstellungsmodell der Metakom-ponente Rechnung getragen (vgl. 6). DieProzessdimension fur das Datenbereitstel-lungsmodell wird durch �bertragung derInhalte in ereignisgesteuerte Prozessketten(EPK) hervorgehoben. Die im Prozess-modell abgelegten Daten verweisen auf dienotwendigen Datenmodelle.Obwohl die Metaebene die Arbeits-
schablonen bzw. Vorgehensmodelle fur dieNutzung und Steuerung von Elementender Gegenstandsebene beinhaltet, ist sieimmer noch anwendungsneutral. DieDMA liefert ein Strukturierungsschema,das sowohl Ausgangspunkt fur die Fokus-sierung weiterer theoretischer Unter-suchungen und Einordnungen ist, aberauch fur reale Aufgabenstellungen adap-tierbar wird. So wird bspw. das in Bild 6vorgestellte Datenbereitstellungsmodell(Ebene I: Architekturkomponente, Meta-komponente, Datenbereitstellungsmodell)die Grundlage eines Applikationsreferenz-
WIRTSCHAFTSINFORMATIK 46 (2004) 1, S. 15–21
Data Mining-Prozeß i.e.S.
Modell- Klassifikationsmodell- Zeitreihenmodell- Assoziationsregeln
Ergebnis 1 Ergebnis ... Ergebnis n
Modellanwenden
Applikations-objekt
Datenbasiszur
Modellierung
Datenzur
Anwendung
Domänenspez.interne
Einflußfaktoren
Domänenspez.externe
Einflußfaktoren
Grund-gesamtheit
Daten-anforderung
Datenselektieren
externe
interneDaten-quellen
Datenaufbereiten
selektierteDatenbasis
X
Daten-quellen
Bild 6 EPK – Metakomponente – Daten-bereitstellungsmodell
Anwender
Schnittstellen-standards
technischeInfrastruktur
Daten
Data Mining-Prozeß
Rechner:• leistungsfähiger PCfür kleinen und mittlerenDatenumfang bis zumeinstelligen GByte-Bereich
• fallweise Midrange- undGroßrechner
Datenbanken:• DB2• ORACLE• MS SQL-Server• Informix• Sybase• Interbase
Datenübernahme:• ODBC• JDBC• OLE DBverteilte Applikationen:• COM/ DCOM• CORBA• Java-RMI
Qualifikation undFähigkeiten mit• domänenspezifischemanalytischen Verständnis
• mathematisch-statisti-schem Grundverständnis
• Abstraktionsvermögen• PC-Kenntnissen
Beschreibung zu analysie-render Objekte möglichst• aktuell/ zeitraumbezogen• fehlerfrei• lückenlos• unkorreliert• teilweise aggregiert
Bild 7 Gegenstandskomponente – operationales Modell
Data-Mining-Anwendungsarchitektur 19
Datenbereitstellungsmodells fur Analysendes Navigationsverhaltens in Webportalen(Ebene II: Applikationsreferenzen, Praxis-komponente, Datenbereitstellungsmodell),welches wiederum je nach Konkretisierungden Anwendungsvoraussetzungen ange-passt wird, z. B. fur die Analyse des Navi-gationsverhaltens in Webshops (Ebene III:Referenzszenarien, Praxiskomponente,Datenbereitstellungsmodell). Fur jedeskonkrete Webportal und jeden Benutzer-kreis sind Modellvarianten zu erarbeiten.Analog werden die Vorgehensmodelle furdie entsprechenden einzelnen Data-Mi-ning-Methoden ebenenweise von der Me-takomponente bis zur Praxiskomponentebehandelt [Pete03].Aus operationaler Sicht sind rund um
den Data-Mining-Prozess Voraussetzun-gen zu schaffen, die sich auf Bedingungenund Anforderungen an Anwender, Daten,
technische Infrastruktur und Schnittstel-lenstandards beziehen. Diese Inhalte sindBestandteil des operationalen Modells derGegenstandskomponente der DMA (vgl.Bild 7).
3 Fazit und abgeleitetesForschungspotenzial
Wird die Komplexitat des Data-Mining-Themas betrachtet, so deckt die DMA diewichtigsten Strukturierungsbereiche ab. Eshandelt sich um eine offene Anwendungs-architektur, deren Komponenten in ihrerspezifischen Auspragung erweiterbar sind.
Die Auspragungen der DMAwurden imAbschnitt 2.1 vorrangig mit Methoden zurProzessdarstellung und Prozessintegrationabgebildet. Insofern besitzt die DMA denCharakter einer Prozessarchitektur, d. h.die DMA stellt eine Prozessarchitektur furData-Mining dar.Die entwickelten Komponenten der
DMA bilden die Grundlage fur die Ein-ordnung weiterer Verfahren von der Da-tenselektion bis zur Modellevaluierung.Der Ausbau der Praxiskomponente zu ver-wertbaren Applikationsreferenzmodellenund Referenzszenarien wird fur die An-wendung von Data-Mining-Verfahren sehrwertvoll sein.Eine wissenschaftliche Herausforderung
bilden nach wie vor die Evaluierung vonData-Mining-Verfahren sowie die Ent-wicklung von hybriden Algorithmen, diedie Vorzuge einzelner Verfahren in sichvereinen.
WIRTSCHAFTSINFORMATIK 46 (2004) 1, S. 15–21
Basiskomponente zur Datenaufbereitung im Data Mining-Prozeß
Skalentransformation(Nominal-, Ordinal-, Intervall-,Verhältnis- und Absolutskala)
Standardisierung/ Normierung(Standardisierung diskreter oder
stetiger Zufallsvariablen, Skalarprodukt, ...)
Basiskomponente zur Modellierung im Data Mining-Prozeß
Klassenbildungsalgorithmen(SOM, ART1, ART2, ART3, Fuzzy-ART, LVQ,
WARD, Median, Average Linkage, Complete Linkage, Centroid, k-Means, ...)
Zeitreihenanalysealgorithmen(einfache/multiple lineare Regressionsanalyse, ARMA/ARIMA, ARCH,GARCH,
Backpropagation, Elman, Jordan, RBF, CART, M5, SRT, ...)
Assoziationsalgorithmen(AIS, SetM, Apriori-Familie, Partition, Sampling, DHP, DIC, FP-growth, ...)
Klassifizierungsalgorithmen(Perceptron, Counterpropagation, Backpropagation, ..., lineare, logistische, quadratische
Diskriminanzanalyse, ID3, NewID, C4.5, ID5R, CHAID, CLS, LCLR, AQ15, ...)
modelloptimierende Algorithmen(genetische Algorithmen, Fuzzy-Ansätze, ... )
Basiskomponente zur Evaluierung im Data Mining-Prozeß
Klassenbildungsalgorithmen(Innerklassenhomogenität, Heterogenität zwischen den Klassen, Verhältnis beider,
Varianzkriterium, F-Wert, ...)
Zeitreihenanalysealgorithmen(Mean Squared Error, Theilscher Ungleichheitskoeffizient, Trefferquote,
Korrelationskoefizient nach Bravis-Pearson, Wegstrecke, ...)
Assoziationsalgorithmen(Performanceauslastung, ...)
Klassifizierungsalghorithmen(Mean Squared Error, Theilsche Ungleicheitskoeffizient, Trefferquote, ...)
modelloptimierende Algorithmen(verfahrensklassenspezifische Evaluierungskriterien)
Abstract
Data Mining Application Architecture
The ability to combine domain specific knowledge and special knowledge about using math-ematical-statistical methods for analyzing big data bases at present time is not wide-spreadin science and business.For the near future, an increase in data mining applications can be expected. So, one needsinstruments to support non-specialists in using specific knowledege about data mining.In this paper a data mining architecture is introduced. Its main advantage is to offer a sys-tematical scheme for data mining methods. These methods are structured with reference toapplications.The data mining application architecture is a decision and structuring support for datamining problems to users, scientists and students.
Keywords: Data Mining, Data Mining-Methods, Application Architecture, Components ofArchitecture, Application References, Scenarios of References, Data Mining-Process, Deci-sion Support
Bild 8 Gegenstandskomponente – Basiskomponentenmodell
20 Helge Petersohn
Es ist kunftig mit einer starken Zunahmevon Data-Mining-Anwendungen zu rech-nen. Die Systematisierung von Data-Mining-Wissen ist daher eine notwendigeAufgabe. Durch die DMA wird der fachli-che Zugang zu diesem Thema wesentlichunterstutzt.
Literatur
[AdZa98] Adriaans, Pieter; Zantinge, Dolf: DataMining. Addison-Wesley Publishing and Com-pany Harlow et al. 1998.
[AlNi00] Alpar, Paul; Niedereichholz, Joachim:Data Mining im praktischen Einsatz: Verfahrenund Anwendungsfalle fur Marketing, Vertrieb,Controlling und Kundenunterstutzung. Braun-schweig, Wiesbaden et al. 2000.
[ChBu97] Chamoni, Peter; Budde, C.: Methodenund Verfahren des Data Mining. Gerhard-Mer-cator-Universitat Gesamthochschule Duisburg,Fachbereich Wirtschaftswissenschaft, Diskus-sionsbeitrage, 1997.
[Dusi00] Dusing, Roland: Data Warehouse, DataMining. In: Disterer, Georg; Fels, Friedrich;Hausotter, Andreas (Hrsg.): Taschenbuch derWirtschaftsinformatik. Koln 2000, S. 373ff.
[FoBa01] Foegen, Malte, Battenfeld, Jorg:Die Rolleder Architektur in der Anwendungsentwicklung.In: Informatik Spektrum. 24 (2001) 5, S. 290 ff.
[FPS96] Fayyad, Usama M.; Piatetsky-Shapiro,Gregory; Smyth, Padhraic: From data mining toknowledge discovery: an overview. In: Fayyad,Usama M.; Piatetsky-Shapiro, Gregory; Smyth,Padhraic; Uthurusamy, Ramasamy (Hrsg.): Ad-vances in Knowledge Discovery & Data Mining.– AAAI Press/The MIT Press Menlo Park,Cambridge 1996 http://www.kdnuggets.com/gpspubs/aimag-kdd-overview-1996-Fayyad.pdfAbruf am 2002-03-21.
[HBM96] Hagedorn, Jurgen; Bissantz, Nicolas;Mertens, Peter: Data Mining (Datenmuster-erkennung): Stand der Forschung und Entwick-lung. In: Wirtschaftsinformatik 38 (1996) 6, S.601ff.
[Kupp99] Kuppers, Bertram: Data Mining in derPraxis – ein Ansatz zur Nutzung der Potentialevon Data Mining im betrieblichen Umfeld.Frankfurt/M., Berlin 1999.
[Kust01] Kusters, Ulrich: Data Mining-Methoden:Einordnung und �berblick. In: Hippner, Hajo;Kusters, Ulrich; Meyer, Matthias; Wilde,Klaus D. (Hrsg.): Handbuch Data Mining imMarketing. Braunschweig, Wiesbaden et al. 2001,S. 103ff.
[Pete03] Petersohn, Helge: Data Mining. Verfahren– Prozeß – Anwendungsarchitektur. UniversitatLeipzig, Wirtschaftswissenschaftliche Fakultat,Habilitationsschrift, eingereicht Juni 2002.
[Sche98] Scheer, August-Wilhelm: ARIS – Vom Ge-schaftsprozeß zum Anwendungssystem. Sprin-ger-Verlag Berlin, Heidelberg et al., 3. vollig neu-bearbeitete und erweiterte Auflage, 1998.
[Saub00] Sauberlich, Frank: KDD and DataMining als Hilfsmittel zur Entscheidungsunter-stutzung. Frankfurt/M., Berlin 2000.
[Wild01] Wilde, Klaus D.: Data Warehouse, OLAPund Data Mining im Marketing – Moderne In-formationstechnologien im Zusammenspiel. In:Hippner, Hajo; Kusters, Ulrich; Meyer, Mat-thias; Wilde, Klaus D. (Hrsg.): Handbuch DataMining im Marketing – Knowledge Discovery inMarketing Databases. Braunschweig, Wiesbadenet al. 2001, S. 13ff.
WIRTSCHAFTSINFORMATIK 46 (2004) 1, S. 15–21
Data-Mining-Anwendungsarchitektur 21