Datenquellen, Datensenken und die Wüste

31
Datenbanksysteme 3 Sommer 2001 Data Mining - 1 Worzyk FH Anhalt Datenquellen, Datensenken und die Wüste vorhandene Daten benötigte Daten gewünschte Daten Nachfrage

description

Datenquellen, Datensenken und die Wüste. vorhandene Daten. benötigte Daten. Nachfrage. gewünschte Daten. Informationsbedarf abhängig von der Aufgabe. Veränderlichkeit. Strukturiertheit. Definition Data Mining. Data Mining - PowerPoint PPT Presentation

Transcript of Datenquellen, Datensenken und die Wüste

Datenbanksysteme 3 Sommer 2001Data Mining - 1Worzyk

FH Anhalt

Datenquellen, Datensenken und die Wüste

vorhandene

Daten

benötigte

Daten

gewünschte

Daten

Nachfrage

Datenbanksysteme 3 Sommer 2001Data Mining - 2Worzyk

FH Anhalt

Informationsbedarf abhängig von der

AufgabeGering Hoch

Hoch Hoch strukturierte,stabile Aufgaben;Buchhaltung,Produktion

Hoch strukturierte,stark veränderlicheAufgaben; SoftwareEntwicklung

Gering Schwachstrukturierte, stabileAufgaben;Bildungsbetrieb

Unstrukturierte, starkveränderlicheAufgaben;Forschung,strategische Planung

Veränderlichkeit

Strukturiertheit

Datenbanksysteme 3 Sommer 2001Data Mining - 3Worzyk

FH Anhalt

DefinitionData Mining

Data Mining„ is the nontrivial extraction of

implicit, previous unknown and potentially useful information from data“

William J. Frawley Gregory Piatetsky-Shapiro,

Datenbanksysteme 3 Sommer 2001Data Mining - 4Worzyk

FH Anhalt

Leistungsmerkmale

• Hypothesenfreiheit• Automatisierte Vorhersage von

Trends, Verhalten und Mustern• Automatisierte Aufdeckung

unbekannter Strukturen• Zusatzkomponenten für

Preprocessing und Ergebnisaufbereitung

Datenbanksysteme 3 Sommer 2001Data Mining - 5Worzyk

FH Anhalt

Anwendungsbeispiele

Datenbanksysteme 3 Sommer 2001Data Mining - 6Worzyk

FH Anhalt

Anwendungsbeispiele• Astronomie • Erdwissenschaften• Marketing• Investment• Betrugserkennung• Individualisierte Werbeanzeigen• Electronic Commerce• Datenschutz

Datenbanksysteme 3 Sommer 2001Data Mining - 7Worzyk

FH Anhalt

Ansatz

Tradi-tionell

DataMining

Hypothesenfestlegen

Methodeentwickeln

Datenbasisanalysieren

Ergebnisseverdichten

Ergebnisseinterpretieren

Anwender ComputerExperte

ComputerSystem

Statistiker Anwender

Datenbasisanalysieren

InteressanteMusterfinden

Ergebnisseinterpretieren

Anwender

Data Mining System

Datenbanksysteme 3 Sommer 2001Data Mining - 8Worzyk

FH Anhalt

Data Mining Methoden

Datenbanksysteme 3 Sommer 2001Data Mining - 9Worzyk

FH Anhalt

DefinitionData Mining

Data Mining„in databases is the non-trivial

process of identifying valid, novel, potential useful, and ultimately understandable patterns in data“

William J. Frawley Gregory Piatetsky-Shapiro,

Datenbanksysteme 3 Sommer 2001Data Mining - 10Worzyk

FH Anhalt

InformationDaten (Semantik) sind aus Zeichen (Syntaktik)

bestehende Abbilder der Wirklichkeit.Eine Nachricht (Semantik) ist eine Menge von

Daten, die für ein Individuum eine inhaltliche Bedeutung hat.

Information (Pragmatik) ist die Veränderung der verhaltenswirksamen Erkenntnis eines Individuums mittels einer Nachricht.

Wissen ist der Gesamtbestand an verhaltenswirksamen Erkenntnissen eines Individuums.

Datenbanksysteme 3 Sommer 2001Data Mining - 11Worzyk

FH Anhalt

Data Mining Prozeßmodell

Preprocessing ValidierungInterpretationAnalyse

DataWarehouse

OLTPExt

Daten

Datenbanksysteme 3 Sommer 2001Data Mining - 12Worzyk

FH Anhalt

Beteiligte am Data Mining Prozeß

• Management– Vorgabe von Zielen– Wunsch nach hoch verdichteten und aussagekräftigen

Ergebnissen

• Fachabteilung– Aufträge für den Analysten– Fachliche Beratung– Validierung der Ergebnisse– Umsetzung der Ergebnisse

• Analyst– Erstellen der Ergebnisse– Beurteilen der Analyseverfahren– Anforderungen an das Datenmodell

Datenbanksysteme 3 Sommer 2001Data Mining - 13Worzyk

FH Anhalt

Datenschutz

EU-Datenschutzrichtlinie besagt, dass die Verarbeitung von Daten,aus denen rassische oder ethnische Herkunft,

politische Meinungen, religiöse und philosophische Überzeugungen oder die Gewerkschaftszugehörigkeit hervorgehen, sowie auch die Verarbeitungvon Daten über Gesundheit oder Sexualleben

untersagt ist.

Datenbanksysteme 3 Sommer 2001Data Mining - 14Worzyk

FH Anhalt

Prozeßmodell

Data Warehouse

Datenbanksysteme 3 Sommer 2001Data Mining - 15Worzyk

FH Anhalt

Data Warehouse

Warum nicht die operationale Datenbank (OnLine Transaction Processing) ?– Zusätzliche Datenquellen

• Hierarchische, objektorientierte Datenbanken• Files

– Zusätzliche Indizes– Vergröberung und Verfeinerung– Anwenderfreundliche Abfragesprache

Datenbanksysteme 3 Sommer 2001Data Mining - 16Worzyk

FH Anhalt

Antwortzeiten

Zeit

An

twort

zeit

sec.

Datenbanksysteme 3 Sommer 2001Data Mining - 17Worzyk

FH Anhalt

OLTP - OLAPTrennung von

OnLine Transaction Processingtägliche Routinebearbeitung der DatenBuchungen, Bestellungen, Erfassung von

Meßergebnissen

OnLine Analytical Processingsporadische oder regelmäßige Analyse der

Daten

Bearbeitung auf unterschiedlichen Rechnern

Datenbanksysteme 3 Sommer 2001Data Mining - 18Worzyk

FH Anhalt

Datenübernahme• Regelmäßig durch Backup und Restore

– OLAP-System kann als Backup genutzt werden– regelmäßiger neuer Aufbau der zusätzlichen

Indizes– mittlere Aktualität

• einmalige Übernahme der OLTP-Daten– einmaliger Aufbau der zusätzlichen Indizes– veraltete Daten

• einmalige Übernahme aller relevanten Daten, dann Übernahme der Änderungen– automatischer Aufbau der zusätzlichen Indizes– beliebige Aktualität

Datenbanksysteme 3 Sommer 2001Data Mining - 19Worzyk

FH Anhalt

Datenübernahme

Wenn es irgendwie möglich ist, Datenbankfunktionalitäten für die Datenübernahme einsetzen und keine eigenen Programme erstellen.

(kostet nur Zeit und Geld und ist fehleranfällig)

Datenbanksysteme 3 Sommer 2001Data Mining - 20Worzyk

FH Anhalt

Datenübernahme

Konsistenz:– Die Daten müssen in sich konsistent

sein– im Verhältnis zu anderen Daten aus

der gleichen Quelle– im Verhältnis zu Daten aus anderen

Quellen– im Verhältnis zu den im Data

Warehouse vorhandenen Daten

Datenbanksysteme 3 Sommer 2001Data Mining - 21Worzyk

FH Anhalt

Datenübernahme

Störungsfrei– Überwachung der regelmäßigen

Datenübertragung– Überwachung des vorhandenen

Speicherplatzes– performanter Aufbau der Indizes und

der neuen Strukturen

Datenbanksysteme 3 Sommer 2001Data Mining - 22Worzyk

FH Anhalt

Data Warehouse

Extrem große Datenmengen -> neue Verfahren für Backup und

Recovery-> riesige Tabellen (über mehrere

Platten)-> Probleme beim Sortieren,

Indizieren, Verbinden (Join)

Datenbanksysteme 3 Sommer 2001Data Mining - 23Worzyk

FH Anhalt

Datenstruktur

• Star - Schema

• Snowflake - Schema

• Starflake - Schema

Datenbanksysteme 3 Sommer 2001Data Mining - 24Worzyk

FH Anhalt

Star Schema

Verkaufs-transaktionen

Zeit

Produkte

LieferantenKunde

Ort

FaktenDimensionsdaten

Datenbanksysteme 3 Sommer 2001Data Mining - 25Worzyk

FH Anhalt

Snowflake Schema

Verkaufs-transaktionen

Zeit

ProdukteOrt

FaktenSnowflake Dimensionsdaten

Woche

MonatSSV Oster-

verkauf

Region

Art

Farbe

Datenbanksysteme 3 Sommer 2001Data Mining - 26Worzyk

FH Anhalt

Starflake Schema

Verkaufs-transaktionen

Zeit

ProdukteOrt

Fakten Snowflake Dimensionsdaten

Woche

MonatSSV Oster-

verkauf

Region

Art

Farbe

Dimensionsdaten

Kunde

OrtZeit

Produkte

Lieferanten

Datenbanksysteme 3 Sommer 2001Data Mining - 27Worzyk

FH Anhalt

Mathetest• Wie sehen die zeitlichen Verläufe aus• Wie lange braucht der einzelnen

Probant pro Frage• Welche Einträge sind plausibel• Welche Daten der Eltern sind

plausibel? • Wie korrelieren die Antworten auf die

Testfragen?

Datenbanksysteme 3 Sommer 2001Data Mining - 28Worzyk

FH Anhalt

Tabellenta_probant

probant

aufgaben_nr

ergebnis_1

ergebnis_2

ergebnis_3

ergebnis_4

richtig

datum

ip_adresse

ta_aufgabenaufgaben_nraugfaben_textloesung_1loesung_2loesung_3loesung_4kommentar_1kommentar_2kommentar_3kommentar_4richtige_loesung

ta_mathetest_historiedatumtext

ta_seite1datumip_adresse

Datenbanksysteme 3 Sommer 2001Data Mining - 29Worzyk

FH Anhalt

Rohdaten30.6.196017.4.19571 5 Apr 15 2000 1:28PM

deeeeeeeee5 17 Apr 15 2000 1:29PM

24.03.195126.01.19481 7 Apr 15 2000 1:29PM

00.00.0000.00.0040 10 Apr 17 2000 4:07PM

15.11.195023.01.194814 1 Apr 18 2000 2:41PM

1409530805481 1 Jul 13 2000 4:34PM

29.7´5429.9´523 54 Sep 27 2000 8:20AM

01.01.0001.01.009 54 Sep 27 2000 2:05PM

20.05.195623.03.19531. 54 Oct 26 2000 9:54PM

1.1.19601.1.19601 2 Oct 30 2000 12:29PM

ab0 3 Jan 10 2001 1:46PM

ab0 54 Jan 11 2001 6:57PM

Datenbanksysteme 3 Sommer 2001Data Mining - 30Worzyk

FH Anhalt

Aufgaben• Datenübernahme• Analyse der Zeiten zwischen zwei

Einträgen der gleichen Probanten• Kippen der Tabelle (eine Zeile pro

Probant)• Validierung der Einträge (wer ist

ein ernsthafter Teilnehmer)• Bearbeiten der Geburtsdaten

Datenbanksysteme 3 Sommer 2001Data Mining - 31Worzyk

FH Anhalt

Datenübertragung• In der Sybase-Datenbank anmelden• select auf die Tabellen• Ausgabe so formatieren, dass sie

insert für die Zieldatenbank ergibt• Ausgabe in eine Datei speichern• In der Oracle-Datenbank anmelden• insert, dabei fortlaufende Nummer

vergeben