PG-402 Wissensmanagement: Zeitreihen in Datenbanken

17
07.05.02 PG402 Wissensmanagement Zeitreihen in Date nbanken 1 PG-402 Wissensmanagement: Zeitreihen in Datenbanken 07.05.2002 Klaus Unterstein

description

PG-402 Wissensmanagement: Zeitreihen in Datenbanken. 07.05.2002 Klaus Unterstein. Übersicht. Zeitreihen Schritte bei der Zeitreihenanalyse Anwendungsfallbeispiel: SLTIME2 Zusammenfassung Anhang: Literaturangaben. I. Zeitreihen. Was sind Zeitreihen ? Wer braucht sie ? - PowerPoint PPT Presentation

Transcript of PG-402 Wissensmanagement: Zeitreihen in Datenbanken

Page 1: PG-402 Wissensmanagement: Zeitreihen in Datenbanken

07.05.02 PG402 Wissensmanagement Zeitreihen in Datenbanken

1

PG-402 Wissensmanagement:Zeitreihen in Datenbanken

07.05.2002

Klaus Unterstein

Page 2: PG-402 Wissensmanagement: Zeitreihen in Datenbanken

07.05.02 PG402 Wissensmanagement Zeitreihen in Datenbanken

2

Übersicht

I. Zeitreihen

II. Schritte bei der Zeitreihenanalyse

III. Anwendungsfallbeispiel: SLTIME2

IV. Zusammenfassung

V. Anhang: Literaturangaben

Page 3: PG-402 Wissensmanagement: Zeitreihen in Datenbanken

07.05.02 PG402 Wissensmanagement Zeitreihen in Datenbanken

3

I. Zeitreihen

a) Was sind Zeitreihen ?

b) Wer braucht sie ?

c) Wo findet man sie ?

d) Warum gerade Zeitreihen ?

e) Wofür sind sie gut ?

Page 4: PG-402 Wissensmanagement: Zeitreihen in Datenbanken

07.05.02 PG402 Wissensmanagement Zeitreihen in Datenbanken

4

I. Zeitreihen

Univariat - ein Attribut pro Zeit (Temperatur)

Multivariat - k Attribute (Temperatur, Luftdruck, Luftfeuchtigkeit)

Zeitt1 t2 ti tm tm+1

Zeitt1 t2 ti tm tm+1

k

[Morik/2000a]

Page 5: PG-402 Wissensmanagement: Zeitreihen in Datenbanken

07.05.02 PG402 Wissensmanagement Zeitreihen in Datenbanken

5

II. Schritte bei der Zeitreihenanalyse

DB

Shop Week Item1 ... Item50

Dm1 1 4 ... 12 Dm1 ... ... ... ... Dm1 104 9 ... 16 Dm2 1 3 ... 19 ... ... ... ... ... Dm20 104 12 ... 16

A B

Shop Week Item1 ... Item50

Dm1 1 4 ... 12 Dm1 ... ... ... ... Dm1 104 9 ... 16 Dm2 1 3 ... 19 ... ... ... ... ... Dm20 104 12 ... 16

Page 6: PG-402 Wissensmanagement: Zeitreihen in Datenbanken

07.05.02 PG402 Wissensmanagement Zeitreihen in Datenbanken

6

II. ZeitreihenanalyseReihenfolge

1. Messung2. `Tabellarisierung´3. Speicherung4. Daten-Vorverarbeitung5. Diskretisierung6. Clustering7. Assoziationsregeln8. Bewertung9. Iterationen

Page 7: PG-402 Wissensmanagement: Zeitreihen in Datenbanken

07.05.02 PG402 Wissensmanagement Zeitreihen in Datenbanken

7

II. Zeitreihe – Schritte

1. Messung

2. `Tabellarisierung´ (bereits eine Daten-Vorverarbeitung zur Speicherung)Beispiel: Data-Warehouse

3. Speicherung

Page 8: PG-402 Wissensmanagement: Zeitreihen in Datenbanken

07.05.02 PG402 Wissensmanagement Zeitreihen in Datenbanken

8

II. Zeitreihe – Schritte (2)

4. Daten-Vorverarbeitung für Zeitreihenanalyse (Data-Preprocessing)- Eignung der Daten für eine bestimmte Aufgabe

(Qualitäts- und Quantitätsprüfung)- Festlegung der Lösungsmenge- Wahl des Verfahrens- Aneignung von Domain-Wissen- Dateninspektion (Behandlung v. Problemen,

NULL-Einträge,...)- Vereinfachung(en) für das gewählte Verfahren

[nach: DP/1999 mit Modifikationen]

Page 9: PG-402 Wissensmanagement: Zeitreihen in Datenbanken

07.05.02 PG402 Wissensmanagement Zeitreihen in Datenbanken

9

II. Zeitreihe – Schritte (3)

5. Diskretisierung von Zeitreihen- Umwandlung von kontinuierlichen Größen in diskrete Größen- Gegeben: Sequenz (s)

s = (x1 , …, xn)- Wahl der Fenstergröße (w)- Subsequenz der Zeitreihe (si)

si = (xi , …, xi+w-1) [Nach: DLM/1998]

Page 10: PG-402 Wissensmanagement: Zeitreihen in Datenbanken

07.05.02 PG402 Wissensmanagement Zeitreihen in Datenbanken

10

II. Zeitreihe – Schritte (4)

6. (Clustering der gefundenen Sub-Sequenzen [k-Means, Greedy-Algorithmen,...])

7. Nach Assoziationsregeln suchen auf der `diskreten´ Zeitreihe

8. Bewertung der erzeugten Regeln(manuell, J-Measure,...)

9. Iterationen mit anderen Parametern, Verfahren, etc.

Page 11: PG-402 Wissensmanagement: Zeitreihen in Datenbanken

07.05.02 PG402 Wissensmanagement Zeitreihen in Datenbanken

11

III. Anwendungsfallbeispiel: SLTIME2

• Bisher: Ein (optimaler) Ablauf dargestellt

• Idealfall ohne Probleme – Praxis meist mit Komplikationen

• Probleme können in jedem Schritt auftreten

Page 12: PG-402 Wissensmanagement: Zeitreihen in Datenbanken

07.05.02 PG402 Wissensmanagement Zeitreihen in Datenbanken

12

III. Ergebnisse anhand der SLTIME2

1. Schritt (1) – (3) waren unbeeinflußbar.2. (4) Datenvorverarbeitung:

- Domainwissenaneignung (Verständnis der Strukturen)- `einfache´ Bereinigung/Korrektur der Daten,

Entdeckung von Problembereichen (NULLs, Inkonsistenzen, unmögliche Werte)- Transformation der Zeitstruktur für ein Verfahren

3. (5) - (9) Scheitert derzeit an (4)

Page 13: PG-402 Wissensmanagement: Zeitreihen in Datenbanken

07.05.02 PG402 Wissensmanagement Zeitreihen in Datenbanken

13

III. Ergebnisse - Datentransformation

a) Transformation: Alle Vertragsereignisseeiner Person als Zeitreihe

- Granularität der Daten- Vertragszuordnung (VVID->PTID)- Betrachtung der Änderungen- unterschiedliche Anzahl von zu

betrachtenden Teilen- grosse Flexibilität des Systems- Kodierung der Ereignisse [ f(x)-> Wert ]- NUR Label vs. Kompletter `Spaltendump´- MANUELLE Umwandlung einzelner Person

Page 14: PG-402 Wissensmanagement: Zeitreihen in Datenbanken

07.05.02 PG402 Wissensmanagement Zeitreihen in Datenbanken

14

III. Ergebnisse – Datentransformation (2)

b) Transformation:<Beginn, Label, Ende> in DB enthalten.Entscheidungen, wie unterschiedliche Versionen gehandhabt werden sollen.

c) Weitere Ideen:- Shop-Beispiel

[Höpp/2001, HK/2001]

Page 15: PG-402 Wissensmanagement: Zeitreihen in Datenbanken

07.05.02 PG402 Wissensmanagement Zeitreihen in Datenbanken

15

III. Ergebnisse – Datentransformation (3)

Shop Week Item1 ... Item50 Dm1 1 4 ... 12 Dm1 ... ... ... ... Dm1 104 9 ... 16 Dm2 1 3 ... 19 ... ... ... ... ... Dm20 104 12 ... 16

[Morik/2000a]

Page 16: PG-402 Wissensmanagement: Zeitreihen in Datenbanken

07.05.02 PG402 Wissensmanagement Zeitreihen in Datenbanken

16

IV. Zusammenfassung

1. Gezeigt wurde ein allgemeiner Ablauf einer optimalen Zeitreihenanalyse

2. Der aktuelle Stand der SLTIME2 wurde gewählt, um Beispiele und Probleme aufzuzeigen.

3. Weiterhin wurden zwei Ansätze angesprochen, um in der nachfolgenden Diskussion die Machbarkeit und Alternativen zu überlegen!

Page 17: PG-402 Wissensmanagement: Zeitreihen in Datenbanken

07.05.02 PG402 Wissensmanagement Zeitreihen in Datenbanken

17

V. Anhang:Literaturangaben

[DP/1999] Dorian Pyle. Data Preparation for Data Mining. Morgan Kaufmann, 1999

[Morik/2000a]] Katharina Morik. The Representation Race – Preprocessing for Handling Time Phenomena. In ECML‘2000

[DLM/1998] Gautam Das, King-Ip Lin, Heikki Mannila. Rule discovery from time series[FB-2001] Fabian Bauschulte. PG402 – Zeitaspekte. 24.10.2001.[SG/2001] Ron Sun, C. Lee Giles. Sequence Learning: From Recognition and

Prediction to Sequential Decision Making IEEE-2001[HK/2001] Frank Höppner, Frank Klawonn. Finding Informative Rules in Interval

Sequences. In IDA‘2001.[Höpp/2001] Learning Temporal Rules from State Sequences. In WLTSD‘2001.[GuDa] Dimitrios Gunopulos, Gautam Das. Time Series Similarity Measures.[MaSe] Heikki Mannila, Jouni K. Seppänen. Finding similar situations in

sequences of events via random projections.

Danke!