Themenblock: Data Warehousing II · • Nutzen multidimensionale Struktur der Daten • Erlauben...
Transcript of Themenblock: Data Warehousing II · • Nutzen multidimensionale Struktur der Daten • Erlauben...
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Themenblock: Data Warehousing II
Praktikum:Data Warehousing und
Data Mining
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 2
Agenda• Wiederholung: multidimensionale Operatoren• Cognos• Cognos Report Studio• Cognos Analysis Studio• Hinweise zur Bearbeitung
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 3
Pivotieren
Geographie
Produkt
Zeit
Geographie
Produkt
Zeit
Geographie
Produkt
Zeit
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 4
Roll-up und Drill-down
Geographie
Produkt
Februar
Geographie
Produkt
1. QuartalJanuar
März
2. Quartal
3. Quartal
2
4
3
21
33
12
29
455
11 36 107
18
15
25
51
58
22
Roll-up
Drill-down
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 5
Slicing und Dicing
Produkt
Geographie
Produkt
Zeit Zeit
Geographie
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 6
Zusammenfassung: multidim. Operatoren• Nutzen multidimensionale Struktur der Daten• Erlauben einfache Modifikation von Anfragen
• …zu inhaltlich ähnlichen Anfragen• …zu strukturell ähnlichen Anfragen
• Sind auf die Fragestellungen im Data Warehouse zugeschnitten
• Ergänzen bisher bekannte Operatoren
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 7
Agenda• Wiederholung: multidimensionale Operatoren• Cognos• Cognos Report Studio• Cognos Analysis Studio• Hinweise zur Bearbeitung
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 8
Cognos• Ermöglicht Erstellen von
• Ad-hoc-Anfragen (Query Studio)• Berichten (Report Studio)• Multidimensionalen Anfragen (Analysis Studio)
• Backend• Data Cube• Relationale Daten
• Anmeldung• Internet-Explorer• URL: http://i40virt01.ipd.uni-karlsruhe.de/cognos8• Benutzername: <Benutzername>• Passwort: <Passwort>
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 9
Cognos - Startbildschirm
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 10
QueryStudio vs. ReportStudio• QueryStudio (für einfache Anfrage)
• „In Echtzeit“• Visuell
• ReportStudio (für komplexe Berichte)• Visuell• Ergebnisgenerierung auf Befehl• Bedingte Variablen• Dynamische Berichte• Layout individueller anpassbar
• AnalysisStudio (für multidimensionale Sicht)• „In Echtzeit“• Visuell
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 11
Agenda• Wiederholung: multidimensionale Operatoren• Cognos• Cognos Report Studio• Cognos Analysis Studio• Hinweise zur Bearbeitung
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 12
ReportStudio
• Erstellen komplexer Berichte• vielfältige Ausgabe- und Darstellungsoptionen• Parameterabfrage bei Anfrageaufruf• Relationale Sicht auf die Daten
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 13
Aufbau
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 14
Grundlegende Berichtsstruktur• Layout
• Menge von Seiten• Bestimmt Aussehen und Formatierung eines Berichts
• Seiten• Container für Objekte• Kopf/Fußzeile
• Objekte• Eigentliche Informationen• Typen
• Listen• Pivottabellen• Diagramme
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 15
Grundlegende Berichtsstruktur• Abfragen
• Auf Basis „relationaler“ Anfragesprachen• Bilden Grundlage für Berichte
• Vorgehen Berichterstellung• Datenquelle (Package) angeben• Berichtsvorlage auswählen• Abfrageelemente hinzufügen• Speichern und ausführen des Berichts
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 16
Abfragen erstellen• Vorgehen
• Quelldaten wählen• Daten anpassen
• Aggregate berechnen• Daten filtern• Daten sortieren
• Visualisierung wählen• Ergebnis speichern
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 17
Daten einfügen• Baumstruktur
• Enthält Zeichenketten• Enthält Werte• Oder Sonstiges
• Einfache Anfragen stellen• „Drag and drop“
• Baumelemente auf Arbeitsfläche• Elemente auf Arbeitsfläche verschieben
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 18
Menü - Daten bearbeiten• Anwendung gängiger SQL-Anweisungen
• Filtern• Sortieren• Aggregate berechnen
• Vorgehen• Daten im Arbeitsbereich markieren• Funktion anklicken• Dialog befolgen
• Hinweis:Die Funktionen in der Shortcutleiste sind nicht mit den Befehlen hier identisch!
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 19
Menü - Berechnete Attribute• Berechnung neuer
Attribute
• Unterstützte Funktionen• Grundrechenarten• Runden• Abrunden• Quadratwurzel• usw.
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 20
Menü - Filter• Cognos erkennt,
ob Attribut • kategorisch
• Filter auf Menge von Attributwerten
• …oder numerisch• Filter auf Wertebereich
• Optional • Ausnahmebehandlung bei fehlenden Werten
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 21
Menü - Sortieren• Sortieren nach
mehreren Attributen• Sortierung von links
nach rechts
• Modi• Einmaliges Anklicken:
aufsteigende Sortierung• Zweimaliges Anklicken:
absteigende Sortierung• Dreimaliges Anklicken:
Aufhebung der Sortierung
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 22
Menü - Aggregatfunktion• Aggregate über Attribute
• Wird automatisch eingeblendet
• Modi• Diverse Aggregate
• Summe• Anzahl• Durchschnitt• Maximum• Minimum
• Ausblenden
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 23
Menü – Struktur ändern• Änderung der Darstellungsweise
• Gruppieren / Gruppierung aufheben• Pivotieren• Tabelle gemäß eines Attribut
unterteilen• Liste in Kreuztabelle umwandeln
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 24
Menü – Gruppieren
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 25
Menü –Pivottabelle erstellen
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 26
Menü –Pivotieren
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 27
Menü – Abschnitte erstellen
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 28
Einfügbare Objekte – Diagramm
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 29
Report Studio Basiswissen I• Seiten-Explorer
• Verwaltung Berichtsseiten • Erstellen• Anzeigen• Manipulieren• Neue hinzufügen
• Dient• Strukturierung• graphischer Aufbereitung
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 30
Report Studio Basiswissen II• Abfragen-Explorer
• Abfragen• Erstellen• Anzeigen• Ändern
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 31
Report Studio Basiswissen III• Bedingungs-Explorer
• Variablen • Sichten• Verwenden
• Bedingte Formatierung• z.B. Hinterlegung ausgezeichneter
Werte
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 32
Zusätzliche Funktionen vgl. mit Query Studio
• Automatische Anpassung
• Bedingte Formatierung
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 33
Bericht mit Eingabeparametern
• Vorgehen• Entsprechendes Attribut
markieren• Eingabeaufforderungsseite
erstellen anklicken• Seite über Seiten-Explorer
öffnen• Einstellungen über
Eigenschaften-Dialog verfeinern
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 34
Bedingte Formatierung• Vorgehen
• Im Bedingungsexplorer auf Variablen klicken
• Name eingeben und Typ boolsch auswählen
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 35
Bedingte Formatierung• Ausdrucksdefinition
eingeben• im Bedingungs-Explorer
„neue Variable“ „ja“ auswählen (um festzulegen, was passiert, wenn die Bedingung erfüllt ist)
• Bedingter Stil: Variable auswählen
• Hintergrundfarbe wählen
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 36
Agenda• Wiederholung: multidimensionale Operatoren• Cognos• Cognos Report Studio• Cognos Analysis Studio• Hinweise zur Bearbeitung
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
AnalysisStudio – Aufbau
Praktikum Data Warehousing und Mining 37
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Sicht auf die Daten• Blättern in der
Hierarchie möglich
• Ähnlich MDX Tools in SQL Server
• Unterscheidung zwischen Fakten und Dimensionen
Praktikum Data Warehousing und Mining 38
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Multidimensionale Operationen• Rechtsklick auf Spalten
bzw. Zeilennamen
• Kontextmenü erlaubt • Drilldown und Drillup• Slicing und Dicing
(über Ausschließen)
• Pivotieren analog ReportStudio
• Entsprechendes Icon im Menü anklicken
Praktikum Data Warehousing und Mining 39
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 40
Agenda• Wiederholung: multidimensionale Operatoren• Cognos• Cognos Report Studio• Cognos Analysis Studio• Hinweise zur Bearbeitung
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 41
Hinweise zur Bearbeitung• Erreichen der Tools
• Internet Explorer• URL: http://i40virt01.ipd.uni-karlsruhe.de/cognos8
• ReportStudio bevorzugt nutzen• Performance!
• Daten des Data Cubes aus• Package: DWM Relational / DWM Multidimensional
• Ergebnis in „Eigenem Ordner“ speichern
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Lösungen last.fm Übungsblatt:Preprocessing
Lösungen nachMatthias Huber
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Identifikation relevanter Künstler I
Praktikum Data Warehousing und Mining 43
• Idee:Ausblenden von Künstlern, …… die von wenigen Nutzern gehört werden
• Motivation:selten gehörte Künstler sind uninteressant(Ausreißer, …)
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Identifikation relevanter Künstler II• Idee:
Kombination der relevanten Künstler mit Tags
• Motivation:nur so können Tags erhalten bleiben
• Ergebnis: Liste aller relevanten Künstler + Tags
Praktikum Data Warehousing und Mining 44
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Anzeigen nur relevanter Künstler bei Nutzern• Idee:
Auch Nutzerdaten sollten nur wichtige Künstler enthalten
Praktikum Data Warehousing und Mining 45
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Lösungen last.fm Übungsblatt:Aufgabe 1
Lösungen nachMatthias Huber
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
• Bisher:Ausreißer eliminiert
• Idee:Anwenden von k-means
• Ergebnis:GleichgroßeCluster
Identifikation der Cluster
Praktikum Data Warehousing und Mining 47
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Identifikation der Tags• Bisher:
10 Cluster bestimmt,mit Band-Häufigkeiten pro Cluster
• Idee:Identifikation der häufigsten Tags
Praktikum Data Warehousing und Mining 48
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Unsere Erwartungen• Ergebnisse ähnlich zu bisherigen Folien
• Identifikation sinnvoller Clusterzahlen mit alternativem (hierarchischem) Clustering
• Sinnvolle Benennung der Cluster
• Text in managerfreundlicher Version
Praktikum Data Warehousing und Mining 49
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Häufige Fehler / Schwächen• Ausreißer nicht eliminiert
• Attribute nicht / unzureichend normiert
• Designentscheidungen nicht diskutiert
• Nicht auf Vorteile / Nachteile unterschiedlicher Lösungen eingegangen
Praktikum Data Warehousing und Mining 50
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Lösungen last.fm Übungsblatt:Aufgabe 2
Lösungen nachMatthias Huber
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Identifikation der häufigsten Künstler• Vorgehen:
Einfache Aggregation undBestimmung der häufigsten Künstler
Praktikum Data Warehousing und Mining 52
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Identifikation von Assoziationsregeln• Bisher:
Identifikation der häufigsten Künstler
• Jetzt:Bestimmen von Assoziationsregeln
Praktikum Data Warehousing und Mining 53
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Beliebteste Künstler• Jetzt:
Bestimmen von Assoziationsregeln(hier: mit minSupp = 10%, minConf = 65%)
Praktikum Data Warehousing und Mining 54
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Portishead• Jetzt:
Vorgehen Analog zu beliebtesten Künstlern,aber: mit minSupp = 1%, minConf = 50%(beide geringer)
Praktikum Data Warehousing und Mining 55
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Unsere Erwartungen• Normalisierung der Nutzer
• Identifikation der Assoziationsregeln
• Nutzen unterschiedlicher minConf und minSupp
• Auswahl geeigneter Assoziationsregeln und Begründung
• Vorschläge für das ManagementPraktikum Data Warehousing und Mining 56
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Häufige Fehler / Schwächen• Entscheidungen für das Management nicht
formuliert / begründet
• minConf und minSupp nicht variiert
• minConf zu gering für Cross-Selling
• Keine / unbegründete Normalisierung der Nutzer
Praktikum Data Warehousing und Mining 57
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Alternativen• Identifizierung der Cluster mit hohem
Portishead-Anteil
• Formulierung als Klassifikations- oder Regressionsproblem (auf Basis gehörter Musikrichtungen oder Bands)
• Einbeziehung des bisherigen Portishead-Hörverhaltens ist sinnvoll
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Ergebnisse Aufgabe DM II
Praktikum Data Warehousing und Mining 59
DMC DM IIVorname Name Vortrag Top-X Einzel Gruppe
Michael Knoll 1,5 0,20 6,00 6,00 2
Roland Görlitz 1,5 0,17 6,00 6,00 2
Hristina Taneva 1 0,23 6,00 6,00 1,5
Grigor Gyorev 1 0,24 6,00 6,00 1,5
Kirstina Uzunova 1 0,22 6,00 6,00 1,5
Christopher Oßner 1,5 0,21 6,00 5,00 2
Robert Jungblut 1,5 0,15 6,00 5,00 2
Fabian Lehn 1,5 0,46 4,00 5,00 2
Dan Dragan 1,5 0,27 5,00 6,00 2
Tilmann Böhme 2 0,32 5,00 5,00 2,5
Matthias Stumpp 1,5 0,28 5,00 6,00 2
Benjamin Kille 1,5 0,19 6,00 6,00 2
Marcel Noe 2 0,29 5,00 5,00 2,5
DMC DM IIVorname Name Vortrag Top-X Einzel Gruppe
Moritz Lapp 2 5,00 2,5
Alexander Turek 1,5 0,43 4,00 6,00 2
Martin Zang 1,5 0,41 4,00 5,00 2
Mirko Wächter 1,5 0,14 6,00 5,00 2
Pierre Weber 1 0,22 6,00 6,00 1,5
Xiajun Feng 1,5 0,45 4,00 5,00 2
Ahmet Göcksel 1,5 0,13 6,00 6,00 2
Mathilde Janin 2 5,00 2,5
Elena Blazheva 1,5 0,33 5,00 5,00 2
Kiril Aleksandrov 1,5 0,33 5,00 5,00 2
Norbert Ottahal 1,5 0,13 6,00 6,00 2
Xiang Lei 1,5 0,31 5,00 6,00 2
Systeme der InformationsverwaltungUniversität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 60
QuellenangabenA. Bauer, H. Günzel: „Data Warehouse
Systeme – Architektur, Entwicklung, Anwendung“, dpunkt.verlag, 2004.