Datamining Ähnlichkeitssuche auf Zeitreihen Bernd Puchinger [email protected]

17
Datamining Ähnlichkeitssuche auf Zeitreihen Bernd Puchinger [email protected] FernUniversität in Hagen

description

Datamining Ähnlichkeitssuche auf Zeitreihen Bernd Puchinger [email protected]. FernUniversität in Hagen. Übersicht. Einordnung in das Themengebiet Datamining Ähnlichkeitssuche Zeitreihen Anwendungen - PowerPoint PPT Presentation

Transcript of Datamining Ähnlichkeitssuche auf Zeitreihen Bernd Puchinger [email protected]

Page 1: Datamining Ähnlichkeitssuche auf Zeitreihen Bernd Puchinger b.g.puchinger@gmx.de

Datamining

Ähnlichkeitssuche auf Zeitreihen

Bernd [email protected]

FernUniversität in Hagen

Page 2: Datamining Ähnlichkeitssuche auf Zeitreihen Bernd Puchinger b.g.puchinger@gmx.de

Übersicht

● Einordnung in das Themengebiet Datamining● Ähnlichkeitssuche● Zeitreihen● Anwendungen

● Effiziente Ähnlichkeitssuche auf Zeitreihennach Rakesh Agrawal, Christos Faloutsos, Arun N. Swami

● Fouriertransformation● R*-Tree

● Suche auf Teil-Zeitreihen

Page 3: Datamining Ähnlichkeitssuche auf Zeitreihen Bernd Puchinger b.g.puchinger@gmx.de

Datamining

Eine von vielen Definitionen: Datamining ist ...

... „die Anwendung (mathematischer) Methoden

auf einen [üblicherweise großen] Datenbestand,

mit dem Ziel der Mustererkennung“.

Wikipedia - Die freie Enzyklopädie (Hrsg.)Wikipedia DVD-Ausgabe vom 20. September 2006

Artikel “Data-Mining“

Page 4: Datamining Ähnlichkeitssuche auf Zeitreihen Bernd Puchinger b.g.puchinger@gmx.de

Techniken und Methoden

● Entscheidungs- und Klassifikationsbäume

● Neuronale Netze

● Rule-Induction

● Clustering und Ähnlichkeitssuche

● k-Means-Clustering● k-Nearest-Neighbours● Range-Query

Page 5: Datamining Ähnlichkeitssuche auf Zeitreihen Bernd Puchinger b.g.puchinger@gmx.de

Zeitreihen

Page 6: Datamining Ähnlichkeitssuche auf Zeitreihen Bernd Puchinger b.g.puchinger@gmx.de

Agrawal, Faloutsos, Swami

● Erlaubt● Range-Queries● All-Pairs-Queries

● Restriktionen● äquidistante Zeitreihen● identischer Länge● Keine Suche auf Teil-Zeitreihen

● Grundidee● Abbildung der Zeitreihen auf Frequenz-Spektren

mittels Diskreter Fourier-Transformation● Indizierung anhand von drei bis fünf Frequenzen mit einem

R*-Tree

Page 7: Datamining Ähnlichkeitssuche auf Zeitreihen Bernd Puchinger b.g.puchinger@gmx.de

Fourieranalyse: Basis

Page 8: Datamining Ähnlichkeitssuche auf Zeitreihen Bernd Puchinger b.g.puchinger@gmx.de

Fourieranalyse: Fourierreihen

Page 9: Datamining Ähnlichkeitssuche auf Zeitreihen Bernd Puchinger b.g.puchinger@gmx.de

Fourieranalyse: Ähnlichkeit

Page 10: Datamining Ähnlichkeitssuche auf Zeitreihen Bernd Puchinger b.g.puchinger@gmx.de

Fourieranalyse: Rauschen

Page 11: Datamining Ähnlichkeitssuche auf Zeitreihen Bernd Puchinger b.g.puchinger@gmx.de

Fourieranalyse: Folgerungen

● Ähnliche Zeitreihen → Ähnliche Spektren● Niedrige Frequenzen sind signifikant

● auch bei braunem Rauschen ● Störungen = (weißes) Rauschen

● damit ist (als Überlagerung) immer zu rechnen● weißes Rauschen ist „Worst Case“

→ Verwendung der niedrigen Frequenzen zur Indizierung der Zeitreihen möglich!

→ Es kann zu false alerts im Index kommen Es kann nicht zu false dismissals kommen

Page 12: Datamining Ähnlichkeitssuche auf Zeitreihen Bernd Puchinger b.g.puchinger@gmx.de

R*-Tree: Bounding Boxes

● Ursprünglich real-räumliche ausgedehnte Objekte● Nutzung minimaler Bounding-Boxes

● Übertragung auf● Feature-Räume (ggf. multi-dimensional)● Punkte als degenerierte Objekte

Page 13: Datamining Ähnlichkeitssuche auf Zeitreihen Bernd Puchinger b.g.puchinger@gmx.de

R*-Tree: Index

● Bounding Boxes um Objekt-Gruppen

● Gruppierung nachminimalen

● Flächen● Überschneidungen● ...

● Hierarchisch, d.h.Gruppen von Gruppen

→ Baum-Struktur

● Suche nur in Zweigen, deren Bounding Box das gesuchte Objekt umfasst

Page 14: Datamining Ähnlichkeitssuche auf Zeitreihen Bernd Puchinger b.g.puchinger@gmx.de

R*-Tree: Suche

Suche nur in Zweigen, deren Bounding Box ...● das gesuchte Objekt vollständig umfasst● sich mit dem Suchbereich überschneidet

Page 15: Datamining Ähnlichkeitssuche auf Zeitreihen Bernd Puchinger b.g.puchinger@gmx.de

R*-Tree: Updates

● Aufwände für● Berechnung der minimalen Bounding Boxes

über den gesamten Zugriffspfad● Zuordnung zu Gruppen● Reorganisation der Gruppen

● bei überfüllten Knoten● bei degenerierter Gruppierung

→ Tradeoff zwischen● Such-Beschleunigung und● Update-Verzögerung

● Hier liegen Unterschiede zwischen Mitgliedern derR-Tree Familie

Page 16: Datamining Ähnlichkeitssuche auf Zeitreihen Bernd Puchinger b.g.puchinger@gmx.de

Agrawal, Faloutsos, Swami

● Einfügen einer Zeitreihe

● Diskrete Fourier-Transformation durchführen

● Eintrag im R*-Tree

● Range-Query zu einer Anfrage-Zeitreihe durchführen

● Diskrete Fourier-Transformation durchführen

● Suche im R*-Tree nach TreffernKann false alarms enthalten

● PostprocessingBerechnung der wahren Distanz anhand der Zeitreihen

● Ergebnis:Liste von Zeitreihen, die in der Range liegen

Page 17: Datamining Ähnlichkeitssuche auf Zeitreihen Bernd Puchinger b.g.puchinger@gmx.de

Fortentwicklungen

● Zeitreihen unterschiedlicher Länge / Abtast-Rate:Resampling

● Abfrage auf Teil-Zeitreihen● Indizierung

● Minimale Länge für Abfrage-Zeitreihen festlegen: length● “Fenster“ der Länge lenght über die Zeitreihen bewegen→ Traces von Punkten im Feature-Raum● Teil-Traces als ausgedehnte Objekte im R*-Tree indiziert

● Suche ● Länge length: → Einfache Suche im Index● Länge größer length: → Prefix-Suche (ineffektiv)

→ Multi-Suche auf Teil-Stücke mit reduzierter Range; Ergebnis: Vereinigungsmenge