Data-Mining-Anwendungsarchitektur

7
1 Motivation zur Entwicklung der Data-Mining- Anwendungsarchitektur 1.1 Problemstellung Eine systematische und schnelle Beschaf- fung, Verwaltung, Bereitstellung, Analyse und Interpretation von Daten liefert Infor- mation, die derzeit als die unternehmerische Ressource angesehen wird. Es entstehen in kurzen Zeitra ¨umen Terabyte von Daten, die wertvolle Information fu ¨ r Entscheider bein- halten und die Anwendung von anspruchs- vollen mathematisch-statistischen Verfahren zur Datenanalyse erfordern. Dies gilt ins- besondere dann, wenn mehrere Kriterien, die einen Sachverhalt beschreiben, gleichzei- tig beru ¨ cksichtigt werden sollen und es daru ¨- ber hinaus interessiert, wie stark der Einfluss von einzelnen Kriterien auf diesen Sachver- halt ist. Mit den mathematisch-statistischen Verfahren, die unter Data-Mining-Verfahren zusammengefasst werden, sind wertvolle vorverarbeitende aber auch entscheidungs- unterstu ¨ tzende Datenanalysen mo ¨ glich. Im Sinne der Vorverarbeitung ko ¨ nnen Hypo- thesen u ¨ ber Gemeinsamkeiten von Daten- objekten generiert werden, die zu einem gezielten Online Analytical Processing (OLAP) fu ¨ hren. Entscheidungsunterstu ¨ t- zend wirkt Data-Mining durch die Gene- rierung von Modellen zur Abbildung von Input-Output-Relationen. Nutzer, die bisher wenig oder gar nicht mathematisch-statistische Analysealgorith- men verwendet haben, aber den Bedarf diesbezu ¨ glich aufgrund der massenhaft an- fallenden Fachdaten erkennen, sehen sich folgender Situation gegenu ¨ ber: – zu ¨ gig zu lo ¨ sende Fachprobleme, – große Datenmengen, die ausgewertet werden mu ¨ ssen, – viele zu analysierende Objekte, die durch mehrere Merkmale unterschiedli- cher Skalenniveaus beschrieben werden, – einerseits viele Verfahren, andererseits unkonkrete Bezeichnungen fu ¨r Ana- lyseverfahren in Data-Mining-Tools, – Werkzeuge, die Data-Mining ermo ¨ gli- chen sollen, aber sehr lu ¨ckenhafte Ver- fahrensbeschreibungen liefern, – wenig Know-how zur Anwendung von Data-Mining-Verfahren, – kostenintensive Berater, deren Kenntnis- se und Leistungen nicht ausreichend be- urteilt werden ko ¨ nnen. Doma ¨nenwissen und Spezialkenntnisse u ¨ ber die Verwendung mathematisch-statis- tischer Verfahren zur umfassenden Daten- analyse in Personalunion stellen sowohl in der Praxis als auch in der Wissenschaft noch die Ausnahme dar. Aus der zu erwartenden Zunahme von Data-Mining-Anwendungen leitet sich daher dringender Bedarf an einem Instrumentarium ab, welches es auch Nichtspezialisten ermo ¨ glicht, auf Fachwis- sen u ¨ ber Data-Mining zuzugreifen. WIRTSCHAFTSINFORMATIK 46 (2004) 1, S. 15 21 Der Autor Helge Petersohn Dr. Dipl.-Ing.-Șk. Helge Petersohn NHConsult GmbH Arno-Nitzsche-Str. 43 45 04277 Leipzig 0341 8665607 [email protected] Data-Mining-Anwendungsarchitektur Kernpunkte fu ¨r das Management In diesem Beitrag wird eine Anwendungsarchitektur fu ¨r Data-Mining vorgestellt, deren we- sentlicher Nutzen darin besteht, systematisch aufgearbeitete Data-Mining-Verfahren anwen- dungsbezogen zu strukturieren und zu offerieren. Die Data-Mining-Anwendungsarchitektur (DMA) stellt eine Entscheidungs- und Strukturierungshilfe bei Data-Mining-Problemstellun- gen fu ¨r Anwender, Wissenschaftler und Studenten dar. Die Architektur liefert eine offene Struktur mit: & Architekturkomponenten zur Integration von Daten, Methoden und prinzipiellen Vor- gehensmodellen (Klassenbildung), & Applikationsreferenzen mit anwendungsgruppenspezifischen Modellen (Portalanalyse) und & Referenzszenarien mit konkreten anwendungsspezifischen Modellen (Webshopanalyse). Stichworte: Data-Mining, Data-Mining-Methoden, Anwendungsarchitektur, Architektur- komponenten, Applikationsreferenzen, Referenzszenarien, Data-Mining-Prozess, Entschei- dungsunterstu ¨tzung WI – Schwerpunktaufsatz

Transcript of Data-Mining-Anwendungsarchitektur

Page 1: Data-Mining-Anwendungsarchitektur

1 Motivation zurEntwicklung der Data-Mining-Anwendungsarchitektur

1.1 Problemstellung

Eine systematische und schnelle Beschaf-fung, Verwaltung, Bereitstellung, Analyseund Interpretation von Daten liefert Infor-mation, die derzeit als die unternehmerischeRessource angesehen wird. Es entstehen inkurzen Zeitraumen Terabyte von Daten, diewertvolle Information fur Entscheider bein-halten und die Anwendung von anspruchs-vollen mathematisch-statistischen Verfahrenzur Datenanalyse erfordern. Dies gilt ins-besondere dann, wenn mehrere Kriterien,die einen Sachverhalt beschreiben, gleichzei-tig berucksichtigt werden sollen und es daru-ber hinaus interessiert, wie stark der Einflussvon einzelnen Kriterien auf diesen Sachver-halt ist. Mit den mathematisch-statistischenVerfahren, die unter Data-Mining-Verfahrenzusammengefasst werden, sind wertvolle

vorverarbeitende aber auch entscheidungs-unterstutzende Datenanalysen moglich. ImSinne der Vorverarbeitung konnen Hypo-thesen uber Gemeinsamkeiten von Daten-objekten generiert werden, die zu einemgezielten Online Analytical Processing(OLAP) fuhren. Entscheidungsunterstut-zend wirkt Data-Mining durch die Gene-rierung von Modellen zur Abbildung vonInput-Output-Relationen.Nutzer, die bisher wenig oder gar nicht

mathematisch-statistische Analysealgorith-men verwendet haben, aber den Bedarfdiesbezuglich aufgrund der massenhaft an-fallenden Fachdaten erkennen, sehen sichfolgender Situation gegenuber:– zugig zu losende Fachprobleme,– große Datenmengen, die ausgewertetwerden mussen,

– viele zu analysierende Objekte, diedurch mehrere Merkmale unterschiedli-cher Skalenniveaus beschrieben werden,

– einerseits viele Verfahren, andererseitsunkonkrete Bezeichnungen fur Ana-lyseverfahren in Data-Mining-Tools,

– Werkzeuge, die Data-Mining ermogli-chen sollen, aber sehr luckenhafte Ver-fahrensbeschreibungen liefern,

– wenig Know-how zur Anwendung vonData-Mining-Verfahren,

– kostenintensive Berater, deren Kenntnis-se und Leistungen nicht ausreichend be-urteilt werden konnen.

Domanenwissen und Spezialkenntnisseuber die Verwendung mathematisch-statis-tischer Verfahren zur umfassenden Daten-analyse in Personalunion stellen sowohl inder Praxis als auch in der Wissenschaft nochdie Ausnahme dar. Aus der zu erwartendenZunahme von Data-Mining-Anwendungenleitet sich daher dringender Bedarf an einemInstrumentarium ab, welches es auchNichtspezialisten ermoglicht, auf Fachwis-sen uber Data-Mining zuzugreifen.

WIRTSCHAFTSINFORMATIK 46 (2004) 1, S. 15–21

Der Autor

Helge Petersohn

Dr. Dipl.-Ing.-�k. Helge PetersohnNHConsult GmbHArno-Nitzsche-Str. 43–4504277 Leipzig0341 [email protected]

Data-Mining-Anwendungsarchitektur

Kernpunkte fur das Management

In diesem Beitrag wird eine Anwendungsarchitektur fur Data-Mining vorgestellt, deren we-sentlicher Nutzen darin besteht, systematisch aufgearbeitete Data-Mining-Verfahren anwen-dungsbezogen zu strukturieren und zu offerieren. Die Data-Mining-Anwendungsarchitektur(DMA) stellt eine Entscheidungs- und Strukturierungshilfe bei Data-Mining-Problemstellun-gen fur Anwender, Wissenschaftler und Studenten dar.Die Architektur liefert eine offene Struktur mit:

& Architekturkomponenten zur Integration von Daten, Methoden und prinzipiellen Vor-gehensmodellen (Klassenbildung),

& Applikationsreferenzen mit anwendungsgruppenspezifischen Modellen (Portalanalyse)und

& Referenzszenarien mit konkreten anwendungsspezifischen Modellen (Webshopanalyse).

Stichworte: Data-Mining, Data-Mining-Methoden, Anwendungsarchitektur, Architektur-komponenten, Applikationsreferenzen, Referenzszenarien, Data-Mining-Prozess, Entschei-dungsunterstutzung

WI – Schwerpunktaufsatz

Page 2: Data-Mining-Anwendungsarchitektur

In diesem Beitrag wird dazu eine An-wendungsarchitektur fur Data-Mining vor-gestellt, deren wesentlicher Nutzen darinbesteht, systematisch aufgearbeitete Data-Mining-Verfahren anwendungsbezogen zustrukturieren und zu offerieren. Die Data-Mining-Anwendungsarchitektur (DMA)stellt somit eine Entscheidungs- und Struk-turierungshilfe fur Anwender, Wissen-schaftler und Studenten dar.

1.2 Phasen und Algorithmendes Data-Mining-Prozesses

Beim Data-Mining spielt der Begriff Mus-ter eine zentrale Rolle. Je nach Ana-lysekontext sind verschiedene Muster vonInteresse, z. B. Sprachmuster, Warenmus-ter, Kaufmuster, Gebrauchsmuster, Bild-muster, Textmuster, Verhaltensmuster, Pro-zessmuster, Problemmuster usw.Die Aufgabe des Data-Mining besteht

darin, Daten derart zu analysieren, dassMuster und deren Strukturmodelle erkanntwerden. Diese Strukturmodelle stellen dieschematische Aufbereitung und Typisie-rung der Daten unter dem Aspekt eineskonkreten Analyse- und Anwendungszielsdar. Die Typisierung bezieht sich in diesemKontext auf den semantischen Aspekt.Data-Mining beschreibt somit einen

Analyseprozess, der aus Daten entschei-dungsrelevante Zusammenhange herleitet.Die Prozessschritte werden nicht sequen-ziell durchlaufen, sondern weisen Ruck-sprunge auf. Es handelt sich um einen itera-tiven Prozess, der weitgehend automatisiertsein sollte. Pragende Arbeiten hierfur lie-ferten u. a. [ChBu97; FPS96; HBM96;Kupp99;Wild01].Die aus theoretischer Sicht wichtigsten

Phasen von Data-Mining-Prozessen sind:– Datenselektion,– Datenaufbereitung,– Datenanalyse (Klassenbildung, Assozia-tionsanalyse, Klassifizierung, Zeitreihen-analyse und Optimierung von Modell-parametern) und

– Modellevaluierung [Pete03].Das prinzipielle Vorgehen beim Data-Mining ist in [Pete03] abgebildet.In der Fachliteratur werden fur die ein-

zelnen Phasen sehr viele Algorithmen vor-gestellt. Fur die theoretische Aufbereitung,Einordnung und Analyse sowie fur diepraktische Nutzung ist die �bersicht ver-loren gegangen. Dies erschwert potenziel-len Anwendern (z. B. Wissenschaftlern,Praktikern, Studenten), darunter insbeson-dere Einsteigern, den Zugang zu diesen Ver-fahren und den relevanten Analyseschrit-ten.

2 Aggregation von Phasen,Methoden und Anwendungenzur Data-Mining-Anwendungs-architektur

2.1 Architekturbegriff

Eine Systematisierung der Data-Mining-Verfahren ist diffizil. Dies zeigen auch diezahlreichen in der Literatur diskutiertenAnsatze [Saub00]. Die Systematisierungs-bemuhungen orientieren sich hauptsachlichan den durch die Verfahren zu losendenAufgaben [AlNi00; Kust01; Dusi00].Mit der Einfuhrung des Architektur-

begriffs in [Pete03] wurde eine ganzheitli-che Strukturierung des Data-Mining vor-genommen.Architektur allgemein definiert die

Struktur eines Systems. Diese Strukturbeinhaltet statische und dynamischeAspekte[FoBa01]. Auf den Data-Mining-Prozess bezogen stellen statische Aspektedie Grundprinzipien der Data-Mining-Ver-fahren dar, wahrend die Verwendung derzu variierenden Parameter bei der Skalie-rung, Normierung, bei den Analyseverfah-ren und Evaluierungsmaßen variabel unddamit dynamisch ist.Die Struktur wird durch eine Reihe von

Elementen beschrieben, die durch ihreWechselbeziehungen zusammen darstellen,was als Architektur bezeichnet werdenkann. Die Architektur strukturiert damitnicht nur die Phasen des Data-Mining-Pro-zesses, sondern beinhaltet auch die Einord-nung relevanter Verfahren, Maße und An-wendungen eines Data-Mining-Prozesses.Dazu ist sicherzustellen, dass zwecks An-wendung der Architektur die KriterienDauerhaftigkeit, Robustheit gegenuber�nderungen und leichte Verstandlichkeiterfullt werden. Interessante Ansatze hierzulieferten [FoBa01].Von [FoBa01] wurde bewusst die Art

des Systems nicht festgelegt. Sie unterschei-den zwischen Geschafts-, System- undEntwicklungsarchitektur.Die Geschaftsarchitektur definiert und

strukturiert das Unternehmen und wirddurch Unternehmensziele bestimmt. We-sentliche Elemente sind Prozesse, Ge-schaftsobjekte und Organisationsstruktu-ren. Eine bekannte Architektur hierfurstellt ARIS1, die Architektur fur integrierteInformationssysteme, von [Sche98] dar,wobei die Abgrenzung zu System- undEntwicklungsarchitektur schwierig ist.Die Entwicklungsarchitektur definiert

die Struktur des Entwicklungsprojekts, alsdessen Resultat eine Losung steht. Dazu

gehort die Definition aller Aspekte desProjektmanagements.Die Systemarchitektur beinhaltet die bei-

den zentralen Bereiche softwaretechnischeArchitektur (Softwarekomponenten, funk-tionale Sicht) und Infrastrukturarchitektur(Hardwarekomponenten, holistische undoperationale Sicht) [FoBa01].

2.2 Elemente der Data-Mining-AnwendungsarchitekturBei der DMA handelt es sich um eine pro-zessorientierte Systemarchitektur, die alserster gesamtheitlicher Ansatz zur struktu-rierten und integrierten Darstellung derfunktionalen Zusammenhange beim Data-Mining aufgefasst werden kann. Dies be-zieht sich insbesondere auf die Zusammen-hange zwischen– Data-Mining-Verfahren,– Evaluierungsgroßen,– Datenselektion und -aufbereitung,– Data-Mining-Problemstellungen,– Vorgehensmodellen der Verfahrensklas-sen,

– Anwendungsanforderungen und– Praxisreferenzarchitekturen fur den ge-samten Strukturbereich.

Anwendungsbezogen (Anwendungsdimen-sion) werden diejenigen Verfahrensklassenund deren Evaluierungskriterien (Verfah-rensklassendimension) integriert zusam-mengefasst, die primar Data-Mining-Pro-zessen (Prozessdimension) zugeordnetwerden konnen.Die sich daraus ergebenden drei Dimen-

sionen erfordern jeweils eine DMA-Kom-ponente:– Praxiskomponente (Anwendungsdimen-sion),

– Gegenstandskomponente (Verfahrens-klassendimension) und

– Metakomponente (Prozessdimension).Folgende Inhalte werden den Komponen-ten zugeordnet:Gegenstandskomponente– Basiskomponentenmodell (Algorithmenzur Skalentransformation, Normie-rungsverfahren, Data-Mining-Verfahren,Evaluierungsgroßen)

– operationales Modell (Anforderungender Anwender, Anforderungen an dietechnische Infrastruktur, Anforderungenan die Daten, Standards)

Metakomponente– allgemeines Datenbereitstellungsmodell(Anleitungen zur Datenselektion fur dieZusammenstellung der Datentabellen,auf die die Algorithmen und Großen desBasiskomponentenmodells angewandtwerden sollen)

WIRTSCHAFTSINFORMATIK 46 (2004) 1, S. 15–21

16 Helge Petersohn

Page 3: Data-Mining-Anwendungsarchitektur

– Architekturschablonen im Sinne vonVorgehensmodellen (Anleitungen, Re-geln zur anwendungsbezogenen Umset-zung von Komponenten, Regeln zur Lo-sung von Problemstellungen)

Praxiskomponente fur den gesamten Struk-turbereich– Praxisreferenzarchitektur (Architekturdient projektweise als Referenz zur Eva-luierung und Analyse von Nutzen undDefiziten fur die kontinuierliche Weiter-entwicklung der Architektur, beinhaltetPrototypen)

Bei der DMA handelt es sich um eine inte-grierte Anwendungsarchitektur, deren In-halte im Kontext von Prozessen auf dieanwendungsbezogene Datenanalyse fo-kussiert sind.Fur die DMA-Hierarchie ergeben sich

dazu initial drei Ebenen:– Ebene I – Architekturkomponenten,– Ebene II – Applikationsreferenzen und– Ebene III – Referenzszenarien.

2.3 Ebenen und Komponentender Data-Mining-Anwendungs-architektur

Auf Ebene I werden mithilfe einer Prozess-auswahlmatrix den Komponenten derDMA deren Modelle zugeordnet (vgl.Bild 1). Die Darstellungen werden ausGrunden der Anwendungsnahe, des Refe-renzcharakters, aber auch der Erweite-rungsfahigkeit der DMA mit ARIS1 reali-siert. ARIS1 [Sche98] liefert damit denmethodischen Rahmen fur die Visualisie-

WIRTSCHAFTSINFORMATIK 46 (2004) 1, S. 15–21

Basis-komponenten-modell (BKM)

operationalesModell (OM)

Daten-bereitstellungs-

modell (DM)

Vorgehens-modell (VM)

Gegenstands-komponente

Meta-komponente

Praxis-komponente

Data Mining-Architektur

BKM

OM

DMMeta-

komponente

DMPraxis-

komponente

VMMeta-

komponente

VMPraxis-

komponente

Renditen

Aktienindizes

Wechselkurse

......

VMPraxis-

komponente

Informations-portal

Unternehmen

Webshop

KundenportalVersicherung

BürgerportalKommune

Strom-verbrauch

Wasser-verbrauch

Gas-verbrauch

...

Firmen-kunden

Privat-kunden

...

...Finanz-prognosePortalanalyse Last-

prognoseBonitäts-analyse

Entscheidungs-unterstützungmit Data Mining

Portaleoptimalgestalten

Lastenoptimal

Prognostiz.

Finanz-marktreihenoptimal

Prognostiz.

Bonitätenoptimalbewerten

soziodem.Gruppenoptimal

identifizieren

Kunden-verhalten im

Web

Last-einflüsse und-verteilung

Interdepen-denzen

Finanzmarkt-reihen

Kunden-charakteri-stika

soziodemo-grafische

Beschreibungen

Last-prognose

Finanzmarkt-prognose

Bonitäts-analyse

Personen-gruppierung

Portal-analyse

(Geschäfts-)Prozesseoptimalgestalten

Ressourcen-verbräuche

(Geschäfts-)Prozeß-analyse

Basis-komponenten-modell (BKM)Portalanalyse

operationalesModell (OM)Portalanalyse

Daten-bereitstellungs-modell (DM)Portalanalyse

Vorgehens-modell (VM)Portalanalyse

Informations-portal

UnternehmenWebshop Kundenportal

VersicherungBürgerportalKommune

Portalanalyse

BKMInformations-

portal

BKMWebshop

BKMKundenportalVersicherung

BKMBürgerportalKommune

OMInformations-

portal

OMWebshop

OMKundenportalVersicherung

OMBürgerportalKommune

DMInformations-

portal

DMWebshop

DMKundenportalVersicherung

DMBürgerportalKommune

VMInformations-

portal

VMWebshop

VMKundenportalVersicherung

VMBürgerportalKommune

Szenarien konkreter Applikationen

hinterlegte Modellezur Portalanalyse

hinterlegtes Modellfür Szenario Webshop

Bild 1 Ebene I – Architekturkomponenten mit Hinterlegungen vonModellen fur VM Praxiskomponente

Bild 2 Ebene II – Applikationsreferenzen

Bild 3 Zieldiagramm zur Abbildung des Zusammenhangs vonAnalyseziel (oben), Erfolgsfaktor (mitte) und Analyseprozess (unten)

Bild 4 Ebene III – Zuordnung von Referenzszenarien zu Elementender Gegenstands- und Metakomponente

Data-Mining-Anwendungsarchitektur 17

Page 4: Data-Mining-Anwendungsarchitektur

WIRTSCHAFTSINFORMATIK 46 (2004) 1, S. 15–21

Portalanalyse

VorgehensmodellPraxiskomponente

Portalanalyse

Basis-komponenten-modell (BKM)

operationalesModell (OM)

Daten-bereitstellungs-modell (DM)

Vorgehens-modell (VM)

Gegenstands-komponente

Meta-komponente

Praxis-komponente

Data Mining-Architektur

BKM

OM

DMMeta-

komponente

DMPraxis-

komponente

VMMeta-

komponente

VMPraxis-

komponente

Finanz-prognose

Renditen

Aktienindizes

Wechselkurse

......

VMPraxis-

komponente

Informations-portal

Unternehmen

Webshop

KundenportalVersicherung

BürgerportalKommune

Portalanalyse Lastprognose

Strom-verbrauch

Wasser-verbrauch

Gas-verbrauch

...

Bonitäts-analyse

Firmen-kunden

Privat-kunden

...

...

Basis-komponenten-modell (BKM)Portalanalyse

operationalesModell (OM)Portalanalyse

Daten-bereitstellungs-modell (DM)Portalanalyse

Vorgehens-modell (VM)Portalanalyse

Informations-portal

UnternehmenWebshop

KundenportalVersicherung

BürgerportalKommune

Portalanalyse

BKMInformations-

portal

BKMWebshop

BKMKundenportalVersicherung

BKMBürgerportalKommune

OMInformations-

portal

OMWebshop

OMKundenportalVersicherung

OMBürgerportalKommune

DMInformations-

portal

DMWebshop

DMKundenportalVersicherung

DMBürgerportalKommune

VMInformations-

portal

VMWebshop

VMKundenportalVersicherung

VMBürgerportalKommune

Szenarien konkreter Applikationen

I. Ebene - Architekturkomponenten

II. Ebene - Applikationsreferenzen

III. Ebene - Referenzszenarien

VorgehensmodellPraxiskomponente

Bild 5 Hierarchieebenen der DMA

18 Helge Petersohn

Page 5: Data-Mining-Anwendungsarchitektur

rung und Verknupfung von Komponenteneiner stark prozessbezogenen DMA.

Es werden hinterlegte Modelle durch klei-neModellsymbole angedeutet. So ist hier dasVorgehensmodell fur die Referenzszenariender Praxiskomponente hervorgehoben, daszum einen seine allgemeine Beschreibunginnerhalb der Metakomponente erhalt undzum anderen zu applikationsbezogenenDarstellungen der Praxiskomponente refe-renziert. Dies wird fur die Portalanalyse aufEbene II in Bild 2 deutlich. In einem Funk-tionsbaum werden fur die Praxiskomponen-te mogliche Applikationsreferenzen und de-ren Szenarien zusammengefasst. DieserBaum ist fur weitere Anwendungsfelder be-liebig erweiter- bzw. separierbar.Vorgehensmodelle der Praxiskomponen-

te basieren zwar methodisch auf den Vor-gehensmodellen der Metakomponente,sachbezogen sind sie aber im Zusammen-hang mit praktischen Entscheidungssitua-tionen zu sehen. Diese finden sich in demZieldiagramm in Bild 3 wieder.Auf Ebene III werden den Applikati-

onsreferenzen mit der Prozessauswahl-matrix Referenzszenarien zugeordnet.

Wahrend die Applikationsreferenzen all-gemeingultig fur gleichartige Problemeformuliert werden konnen, spiegeln sichin den Szenarien Varianten von Applikati-onsreferenzen wider. So lauft bspw. dieAnalyse des Nutzerverhaltens in Portalenfur verschiedene Varianten ahnlich ab. Inder konkreten Anwendung ergeben sichdennoch Unterschiede, bspw. zwischender Analyse eines Webshopportals oderdes Informationsportals eines Unterneh-mens (vgl. Bild 4).Bild 5 fasst den Zusammenhang der drei

Hierarchieebenen zusammen.Die Gegenstandskomponente der DMA

umfasst im Basiskomponentenmodell Ver-fahren zur Skalentransformation und Nor-mierung, Data-Mining-Algorithmen undEvaluierungsgroßen (vgl. Bild 8). DerenZusammenspiel im Data-Mining-Prozesswird in Vorgehensmodellen abgelegt. Zubeachtende methodische Details werden in[Pete03] behandelt.Ausgangspunkt fur die Forderung nach

neuen Analyseresultaten, und damit fur dieSuche von geeigneten Verfahren, sind ei-nerseits Informationsdefizite der Entschei-

der und andererseits Hoffnungen, diese ausden inzwischen sehr großen internen undexternen Datenbestanden ausgleichen zukonnen. Diesem Aspekt wird mit demDatenbereitstellungsmodell der Metakom-ponente Rechnung getragen (vgl. 6). DieProzessdimension fur das Datenbereitstel-lungsmodell wird durch �bertragung derInhalte in ereignisgesteuerte Prozessketten(EPK) hervorgehoben. Die im Prozess-modell abgelegten Daten verweisen auf dienotwendigen Datenmodelle.Obwohl die Metaebene die Arbeits-

schablonen bzw. Vorgehensmodelle fur dieNutzung und Steuerung von Elementender Gegenstandsebene beinhaltet, ist sieimmer noch anwendungsneutral. DieDMA liefert ein Strukturierungsschema,das sowohl Ausgangspunkt fur die Fokus-sierung weiterer theoretischer Unter-suchungen und Einordnungen ist, aberauch fur reale Aufgabenstellungen adap-tierbar wird. So wird bspw. das in Bild 6vorgestellte Datenbereitstellungsmodell(Ebene I: Architekturkomponente, Meta-komponente, Datenbereitstellungsmodell)die Grundlage eines Applikationsreferenz-

WIRTSCHAFTSINFORMATIK 46 (2004) 1, S. 15–21

Data Mining-Prozeß i.e.S.

Modell- Klassifikationsmodell- Zeitreihenmodell- Assoziationsregeln

Ergebnis 1 Ergebnis ... Ergebnis n

Modellanwenden

Applikations-objekt

Datenbasiszur

Modellierung

Datenzur

Anwendung

Domänenspez.interne

Einflußfaktoren

Domänenspez.externe

Einflußfaktoren

Grund-gesamtheit

Daten-anforderung

Datenselektieren

externe

interneDaten-quellen

Datenaufbereiten

selektierteDatenbasis

X

Daten-quellen

Bild 6 EPK – Metakomponente – Daten-bereitstellungsmodell

Anwender

Schnittstellen-standards

technischeInfrastruktur

Daten

Data Mining-Prozeß

Rechner:• leistungsfähiger PCfür kleinen und mittlerenDatenumfang bis zumeinstelligen GByte-Bereich

• fallweise Midrange- undGroßrechner

Datenbanken:• DB2• ORACLE• MS SQL-Server• Informix• Sybase• Interbase

Datenübernahme:• ODBC• JDBC• OLE DBverteilte Applikationen:• COM/ DCOM• CORBA• Java-RMI

Qualifikation undFähigkeiten mit• domänenspezifischemanalytischen Verständnis

• mathematisch-statisti-schem Grundverständnis

• Abstraktionsvermögen• PC-Kenntnissen

Beschreibung zu analysie-render Objekte möglichst• aktuell/ zeitraumbezogen• fehlerfrei• lückenlos• unkorreliert• teilweise aggregiert

Bild 7 Gegenstandskomponente – operationales Modell

Data-Mining-Anwendungsarchitektur 19

Page 6: Data-Mining-Anwendungsarchitektur

Datenbereitstellungsmodells fur Analysendes Navigationsverhaltens in Webportalen(Ebene II: Applikationsreferenzen, Praxis-komponente, Datenbereitstellungsmodell),welches wiederum je nach Konkretisierungden Anwendungsvoraussetzungen ange-passt wird, z. B. fur die Analyse des Navi-gationsverhaltens in Webshops (Ebene III:Referenzszenarien, Praxiskomponente,Datenbereitstellungsmodell). Fur jedeskonkrete Webportal und jeden Benutzer-kreis sind Modellvarianten zu erarbeiten.Analog werden die Vorgehensmodelle furdie entsprechenden einzelnen Data-Mi-ning-Methoden ebenenweise von der Me-takomponente bis zur Praxiskomponentebehandelt [Pete03].Aus operationaler Sicht sind rund um

den Data-Mining-Prozess Voraussetzun-gen zu schaffen, die sich auf Bedingungenund Anforderungen an Anwender, Daten,

technische Infrastruktur und Schnittstel-lenstandards beziehen. Diese Inhalte sindBestandteil des operationalen Modells derGegenstandskomponente der DMA (vgl.Bild 7).

3 Fazit und abgeleitetesForschungspotenzial

Wird die Komplexitat des Data-Mining-Themas betrachtet, so deckt die DMA diewichtigsten Strukturierungsbereiche ab. Eshandelt sich um eine offene Anwendungs-architektur, deren Komponenten in ihrerspezifischen Auspragung erweiterbar sind.

Die Auspragungen der DMAwurden imAbschnitt 2.1 vorrangig mit Methoden zurProzessdarstellung und Prozessintegrationabgebildet. Insofern besitzt die DMA denCharakter einer Prozessarchitektur, d. h.die DMA stellt eine Prozessarchitektur furData-Mining dar.Die entwickelten Komponenten der

DMA bilden die Grundlage fur die Ein-ordnung weiterer Verfahren von der Da-tenselektion bis zur Modellevaluierung.Der Ausbau der Praxiskomponente zu ver-wertbaren Applikationsreferenzmodellenund Referenzszenarien wird fur die An-wendung von Data-Mining-Verfahren sehrwertvoll sein.Eine wissenschaftliche Herausforderung

bilden nach wie vor die Evaluierung vonData-Mining-Verfahren sowie die Ent-wicklung von hybriden Algorithmen, diedie Vorzuge einzelner Verfahren in sichvereinen.

WIRTSCHAFTSINFORMATIK 46 (2004) 1, S. 15–21

Basiskomponente zur Datenaufbereitung im Data Mining-Prozeß

Skalentransformation(Nominal-, Ordinal-, Intervall-,Verhältnis- und Absolutskala)

Standardisierung/ Normierung(Standardisierung diskreter oder

stetiger Zufallsvariablen, Skalarprodukt, ...)

Basiskomponente zur Modellierung im Data Mining-Prozeß

Klassenbildungsalgorithmen(SOM, ART1, ART2, ART3, Fuzzy-ART, LVQ,

WARD, Median, Average Linkage, Complete Linkage, Centroid, k-Means, ...)

Zeitreihenanalysealgorithmen(einfache/multiple lineare Regressionsanalyse, ARMA/ARIMA, ARCH,GARCH,

Backpropagation, Elman, Jordan, RBF, CART, M5, SRT, ...)

Assoziationsalgorithmen(AIS, SetM, Apriori-Familie, Partition, Sampling, DHP, DIC, FP-growth, ...)

Klassifizierungsalgorithmen(Perceptron, Counterpropagation, Backpropagation, ..., lineare, logistische, quadratische

Diskriminanzanalyse, ID3, NewID, C4.5, ID5R, CHAID, CLS, LCLR, AQ15, ...)

modelloptimierende Algorithmen(genetische Algorithmen, Fuzzy-Ansätze, ... )

Basiskomponente zur Evaluierung im Data Mining-Prozeß

Klassenbildungsalgorithmen(Innerklassenhomogenität, Heterogenität zwischen den Klassen, Verhältnis beider,

Varianzkriterium, F-Wert, ...)

Zeitreihenanalysealgorithmen(Mean Squared Error, Theilscher Ungleichheitskoeffizient, Trefferquote,

Korrelationskoefizient nach Bravis-Pearson, Wegstrecke, ...)

Assoziationsalgorithmen(Performanceauslastung, ...)

Klassifizierungsalghorithmen(Mean Squared Error, Theilsche Ungleicheitskoeffizient, Trefferquote, ...)

modelloptimierende Algorithmen(verfahrensklassenspezifische Evaluierungskriterien)

Abstract

Data Mining Application Architecture

The ability to combine domain specific knowledge and special knowledge about using math-ematical-statistical methods for analyzing big data bases at present time is not wide-spreadin science and business.For the near future, an increase in data mining applications can be expected. So, one needsinstruments to support non-specialists in using specific knowledege about data mining.In this paper a data mining architecture is introduced. Its main advantage is to offer a sys-tematical scheme for data mining methods. These methods are structured with reference toapplications.The data mining application architecture is a decision and structuring support for datamining problems to users, scientists and students.

Keywords: Data Mining, Data Mining-Methods, Application Architecture, Components ofArchitecture, Application References, Scenarios of References, Data Mining-Process, Deci-sion Support

Bild 8 Gegenstandskomponente – Basiskomponentenmodell

20 Helge Petersohn

Page 7: Data-Mining-Anwendungsarchitektur

Es ist kunftig mit einer starken Zunahmevon Data-Mining-Anwendungen zu rech-nen. Die Systematisierung von Data-Mining-Wissen ist daher eine notwendigeAufgabe. Durch die DMA wird der fachli-che Zugang zu diesem Thema wesentlichunterstutzt.

Literatur

[AdZa98] Adriaans, Pieter; Zantinge, Dolf: DataMining. Addison-Wesley Publishing and Com-pany Harlow et al. 1998.

[AlNi00] Alpar, Paul; Niedereichholz, Joachim:Data Mining im praktischen Einsatz: Verfahrenund Anwendungsfalle fur Marketing, Vertrieb,Controlling und Kundenunterstutzung. Braun-schweig, Wiesbaden et al. 2000.

[ChBu97] Chamoni, Peter; Budde, C.: Methodenund Verfahren des Data Mining. Gerhard-Mer-cator-Universitat Gesamthochschule Duisburg,Fachbereich Wirtschaftswissenschaft, Diskus-sionsbeitrage, 1997.

[Dusi00] Dusing, Roland: Data Warehouse, DataMining. In: Disterer, Georg; Fels, Friedrich;Hausotter, Andreas (Hrsg.): Taschenbuch derWirtschaftsinformatik. Koln 2000, S. 373ff.

[FoBa01] Foegen, Malte, Battenfeld, Jorg:Die Rolleder Architektur in der Anwendungsentwicklung.In: Informatik Spektrum. 24 (2001) 5, S. 290 ff.

[FPS96] Fayyad, Usama M.; Piatetsky-Shapiro,Gregory; Smyth, Padhraic: From data mining toknowledge discovery: an overview. In: Fayyad,Usama M.; Piatetsky-Shapiro, Gregory; Smyth,Padhraic; Uthurusamy, Ramasamy (Hrsg.): Ad-vances in Knowledge Discovery & Data Mining.– AAAI Press/The MIT Press Menlo Park,Cambridge 1996 http://www.kdnuggets.com/gpspubs/aimag-kdd-overview-1996-Fayyad.pdfAbruf am 2002-03-21.

[HBM96] Hagedorn, Jurgen; Bissantz, Nicolas;Mertens, Peter: Data Mining (Datenmuster-erkennung): Stand der Forschung und Entwick-lung. In: Wirtschaftsinformatik 38 (1996) 6, S.601ff.

[Kupp99] Kuppers, Bertram: Data Mining in derPraxis – ein Ansatz zur Nutzung der Potentialevon Data Mining im betrieblichen Umfeld.Frankfurt/M., Berlin 1999.

[Kust01] Kusters, Ulrich: Data Mining-Methoden:Einordnung und �berblick. In: Hippner, Hajo;Kusters, Ulrich; Meyer, Matthias; Wilde,Klaus D. (Hrsg.): Handbuch Data Mining imMarketing. Braunschweig, Wiesbaden et al. 2001,S. 103ff.

[Pete03] Petersohn, Helge: Data Mining. Verfahren– Prozeß – Anwendungsarchitektur. UniversitatLeipzig, Wirtschaftswissenschaftliche Fakultat,Habilitationsschrift, eingereicht Juni 2002.

[Sche98] Scheer, August-Wilhelm: ARIS – Vom Ge-schaftsprozeß zum Anwendungssystem. Sprin-ger-Verlag Berlin, Heidelberg et al., 3. vollig neu-bearbeitete und erweiterte Auflage, 1998.

[Saub00] Sauberlich, Frank: KDD and DataMining als Hilfsmittel zur Entscheidungsunter-stutzung. Frankfurt/M., Berlin 2000.

[Wild01] Wilde, Klaus D.: Data Warehouse, OLAPund Data Mining im Marketing – Moderne In-formationstechnologien im Zusammenspiel. In:Hippner, Hajo; Kusters, Ulrich; Meyer, Mat-thias; Wilde, Klaus D. (Hrsg.): Handbuch DataMining im Marketing – Knowledge Discovery inMarketing Databases. Braunschweig, Wiesbadenet al. 2001, S. 13ff.

WIRTSCHAFTSINFORMATIK 46 (2004) 1, S. 15–21

Data-Mining-Anwendungsarchitektur 21