ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 Komplexe...

ISWeb - Information Systems & Semantic Web

Marcin Grzegorzekmarcin@uni-koblenz.de 1

Komplexe Distanzfunktionen

7. Effiziente Algorithmen und Datenstrukturen

7.1 Hochdimensionale Indexstrukturen

7.1.1 Anfragearten

7.1.2 Baumverfahren

7.1.3 Komplexe Distanzfunktionen

7.1.4 Fluch der hohen Dimensionen

Substitution komplexer Distanzfunktionen

bisherige Baumverfahren und Algorithmen basieren hauptsächlich auf euklidischer Distanz

hier Diskussion der Verfahren für komplexe Distanzfunktionen: keine euklidische Distanzfunktion aufwändig zu berechnen

(siehe etwa quadratische Distanzfunktionen)

Grundidee: Substitution der komplexen Distanzfunktion (meist euklidische Distanzfunktion)Anwendung der einfachen Distanzfunktion als Filter

Problem: unterschiedliche Distanzwerte erzeugen Verfälschungen→ nach Filtern ist Kontrolle mit richtiger Distanzfunktion erforderlich

Algorithmus nach Korn

Korn, Sidiropoulos, Faloutsos, Siegel, Protopapas 1996

so genanntes GEMINI-Verfahren (Generic Multimedia object Indexing)

folgende Probleme bei Verwendung komplexer Distanzfunktionen werden behoben:

1. aufwändige Berechnung der Distanzen

2. keine effizienten Suchalgorithmen verfügbar

3. Feature-Objekte sind nicht immer Vektoren

Substitution durch einfache Distanzfunktion

gegeben: komplexe Distanzfunktionfür beliebige Objektmenge

Substitution mittels Funktion auf Objekten aus (etwa Dimensionsreduzierung) und einfache Distanzfunktion

folgende lower-bound-Bedingung muss erfüllt sein:

(garantiert korrekten Ausschluss von Objekten)

Substitution durch einfache Distanzfunktion (2)

Entwurf der Substitution

Entwurfsziele:

1.effiziente Berechnung wird ermöglicht, etwa RKV-Algorithmus im Baumindex

2. Erfüllung lower-bound-Bedingung

3. minimale Verfälschung

Substitutionsbeispiel

Messung Unähnlichkeit von Zeitreihen anhand euklidscher Distanzfunktion→ aufwändig durch hohe Anzahl von Messwerten

Dimensionsreduzierung durch DFT-Transformation (Kompaktheit)

Substitution durch euklidische Distanz auf kompakten Fourier-Koeffizienten

aufgrund Parseval-Theorem und Wegfallen nichtnegativer Summanden ist lower-bound-Bedingung erfüllt

Substitutionsbeispiel (2)

Algorithmus für Bereichsanfrage nach Korn

einfache Distanzfunktion und komplexe Distanzfunktion

Transformationsfunktion

Anfragepunkt und Radius

Wurzelknoten des Indexbaums

Algorithmus für Bereichsanfrage graphisch

Algorithmus für knn-Anfrage nach Korn

Algorithmus für knn-Anfrage graphisch

Verbesserung des knn-Algorithmus

Seidl, Kriegel 1998

kritischer Parameter ist max-Wert→ erzeugt u.U. hohe Anzahl von Kandidaten

Idee: max-Wert dynamisch ermitteln→ Verschränkung der Zeilen 3 bis 8 und Einsatz von getNext-Anfrage

Verbesserung des knn-Algorithmus

FastMap-Verfahren

Faloutsos, Lin 1995

approximative Abbildung einer Metrik (Objekte und Distanzen) auf k-Dimensionale Punkte und euklidische Distanzfunktionen

Beispiel: Abbildung Menge von Wörtern und Editierdistanz auf mehrdimensionale Punkte

Distanzwerte liegen explizit vor

Parameter k kann frei vordefiniert werden je höher, desto genauer die Approximation je höher, desto mehr Werte pro Objekt

FastMap-Verfahren (2)

Anwendung des FastMap-Verfahrens

Anwendungen:

Substitution komplexer Distanzfunktionen durch indizierbare Distanzfunktion und Punkte

2D- oder 3D-Visualisierung (k=2 oder k=3) einer Metrik

Dimensionsreduzierung

Entwurfsziele sind: effiziente Abbildung

möglichst linearer Aufwand bzgl. Objektanzahl distanzapproximierend effiziente Abbildung neuer Objekte

(unabhängig von Objektanzahl)

Grundidee: Objekte liegen bereits (idealisiert) im euklidischen

Vektorraum Koordinaten sind jedoch unbekannt

Ziel: Finden orthogonaler Koordinatenachsen und Ermitteln der entsprechenden Werte durch Projektion auf Achsen

Ermitteln der Koordinatenwerte

Achse ist durch Objektpaar und (Pivotpunkte) festgelegt

Anwendung Kosinussatz:

Anpassung der Distanzen

nach Finden der Koordinatenwerte einer Achse müssen Distanzen entsprechend reduziert werden

also Entfernen des entsprechenden Terms aus der euklidschen Distanzfunktion:

Distanzen werden also kleiner – Problem: negative Werte können auftreten

nach Anpassung Ermitteln der Koordinatenwerte der nächsten Achse,

Wiederholung bis k Achsen gefunden wurden

Anpassung der Distanzen (2)

Finden der Pivotpunkte

Ziel: Einfluss der Achsendimension soll mit jeder neu gefundenen Achse abnehmen

daher: Finde die am weitesten auseinander liegenden Objekte

Problem: quadratischer Aufwand

Lösung: Einsatz eines heuristischen Algorithmus mit linearem Aufwand

Heuristischer Ansatz zum Finden der Pivotpunkte

oa, ob sind Ausgabeparameter!

Bemerkung: Schritte 4 und 5 werden üblicherweise mehrfach durchlaufen

FastMap-Algorithmus

Beispiel Editierdatensatz

Wörter: Medium (W1), Datenbank (W2), Multimedia (W3), System (W4), Objekt (W5)

Beispiel Editierdistanz (2)

Ergebnis des FastMap-Algorithmus:

Problem mit FastMap-Algorithmus

Annahme: Punkte liegen im (unbekannten) Vektorraum

Annahme nicht immer erfüllt, da nicht jede Distanzfunktion entsprechend einbettbar ist

Problem bei der Distanzanpassung: Wurzel aus negativen Werten

Fluch der hohen Dimensionen

Experimente zeigen: Nächste-Nachbarsuche in Indexbäumen versagt ab etwa 20 Dimensionen

Problem: Ausschluss von Teilbäumen von der Suche nicht möglich→ Gesamtbaumdurchlauf aufwändiger als sequentieller Durchlauf

Phänomen wird Fluch der hohen Dimensionen genannt

tritt im Wesentlichen bei Verwendung der euklidschen Distanzfunktion auf

Fluch ergibt sich aus der Distanzverteilung

Frage: gilt der Fluch für alle Baumsuchverfahren?

Fluch der hohen Dimensionen (2)

Quadrierte Distanzverteilung zweier gleichverteilter Werte

Wahrscheinlichkeitsverteilung von Distanzen:

Erwartungswert beträgt 1/6 und Varianz beträgt 7/180

Quadrierte Distanzverteilung zweier gleichverteilter Punkte

Wahrscheinlichkeitsverteilung der quadrierten eukl. Distanzen nach Anwendung des zentralen Grenzwertsatzes: Annäherung an Normalverteilung

Erwartungswert

Varianz

Verteilung der eukl. Distanz zweier gleichverteilter Punkte

Wurzelberechnung führt zu

Erwartungswert strebt gegen Wert mit steigender Dimension

Standardabweichung ist konstant (≈0,24)

Fazit: im Gegensatz zur Standardabweichung steigt Erwartungswert mit Dimensionszahl (gilt auch für viele Realdatenverteilungen)

Verteilung der euklidischen Distanz zweier gleichverteilter Punkte (2)

Distanzverteilung im hochdimensionalen Raum graphisch

10 Dimensionen:

100 Dimensionen:

Annäherung der Distanzen im hochdimensionalen Raum

steigender Erwartungswert und konstante Standardabweichung führen zu:

Distanzen nähern sich also einander an→ Clusterung ergibt aufgrund fehlender Lokalität wenig Sinn

Annäherung der Distanzen in hochdim. Raum graphisch

Approximationsfehler bei der Cluster-Bildung

Suchbäume clustern mehrere Feature-Objekte anhand einer geometrischen Figur (etwa MBR)

minimale Distanz zu eingeschlossenem Feature-Objekt darf nicht kleiner als zum Cluster sein

Approximationsfehler: durchschnittliche Differenz zwischen Distanz vom Anfragepunkt zum nächsten Feature-Objekt und zum dazugehörigen Cluster

Ziel der Clusterung: Minimierung des Approximationsfehlers durch minimale geometrische Figur (etwa MBR)

Approximationsfehler steigt linear mit Erwartungswert der Distanzverteilung

Nachweis am minimalen konvexen Cluster: konvexe Hülle zwischen zwei Punkten→ also Linie

Extremfall: Anfragepunkt auf der Linie

Extremfall: Anfragepunkt als Punkt auf Simplex

Approximationsfehler bei der Cluster-Bildung (2)

Extremfälle graphisch

Extremfall 1:

Extremfall 2:

Ineffiziente Suche in hochdimensionalen Indexbäumen

Ausschluss eines Teilbaums durch Vergleich von Clusterdistanz mit NN-Kandidatendistanz zum Anfragepunkt

optimaler (aber nicht realisierbarer) Suchalgorithmus: Annahme: Distanz zum nächsten Nachbar sei schon bekannt alle Cluster, deren Minimaldistanz kleiner als NN-Distanz ist,

werden durchsucht

Optimaler Suchalgorithmus dient zur Abschätzung der minimal möglichen Suchkosten

Optimaler Suchalgorithmus graphisch

Optimaler Suchalgorithmus im hochdimensionalen Raum

wenn Dimensionszahl steigt: steigender Approximationsfehler und konstanter Abstand

zwischen größter und kleinster Distanz Folge: selbst bei optimalem Suchalgorithmus können keine

Cluster von Suche ausgeschlossen werden

Fazit: ab bestimmter Dimensionsanzahl ist NN-Suche anhand euklidscher Distanzen mit Baumindizes nicht effizient (mindestens sequentieller Aufwand erforderlich)

Bemerkung: Problem gilt auch für Metrik-Bäume wie den M-Baum

Optimaler Suchalgorithmus im hochdimensionalen Raum (2)

Fluch der hohen Dimensionen graphisch

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 Komplexe...

Documents

Transcript of ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 Komplexe...

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 R-Baum und Varianten R-Baum X-Baum M-Baum.

PROGRAMMHEFT - Israelitische ReligionsgemeinschaftVIOLA 1. Larissa Dmitriak (Solo-Viola) 2. Marcin Niziol (Stellvertretender Solo-Viola) 3. Martin Höfler 4. Vladimir Lanschikov 5.

Tree Based Advanced Relative Expression Analysis...Tree Based Advanced Relative Expression Analysis Marcin Czajkowski(B), Krzysztof Jurczuk, and Marek Kretowski Faculty of Computer

Parochial and Plain Sermons Johna Henry ego Newmana ...kwartjez.amu.edu.pl/teksty/teksty2012_3_11/Kuczok,edition.pdf · Kwartalnik Językoznawczy 2012/3 Marcin Kuczok Życie chrześcijańskie

Makroökonomische Ungleichgewichte - …ec.europa.eu/economy_finance/publications/occasional...Markus Wintersteller, Flnd Marcin Zogala. Statistiken: Yves orian Wöhlbier, Stefan Zeugner

Ordinary General Shareholders Meeting€¦ · Krzysztof Kwiatkowski Member of Supervisory Board Janusz Marzygliński Member of Supervisory Board Marcin Murawski Member of Supervisory

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung.

Pfarrbrief - hasselsaar.files.wordpress.com · VVVVVVVVVVVVVVV Pastoralteam: Pfarrer Marcin Brylka, Telefon: 0 68 94 / 58 19 80 Kaplan Valentine Acholonu, Diakon Werner Lampel und

The Mazowiecka Arcade ROCARE demonstration site · Konrad Grabowski Marcin Kozarzewski The Mazowiecka Arcade ... 1. RC mortar 2. Painted lime mortar The arcade is a unique structure

THINGS TO COME - uni-potsdam.de · "Das Wesen der Intelligenz ist, dass sie sich nicht dominieren lässt" Susanne Beck, Hannover Marcin Grzegorzek, Siegen Manfred Hild, Berlin

ICT & Ethik Bildschirmspiele und Gewalt I A. Studer, M. Marcin.

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 4 Multimedia Information Retrieval 1.Einführung 2.Ablauf des Multimedia.

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 Anwendung DFT zur Feature-Aufbereitung Ziel: Minimalität der Feature-Werte.

Musicalcamp Bewegung Plus / Evangelisches ... · Alexandre Tansman Marc Bonastre, Oboe Marcin Domagala, Klarinette Daniel Mota, Fagott Sonntag, 1. Dezember, 16.30 Uhr Reformierte

· 2018. 9. 10. · 4 CV Mitteldeutschland 2 2 0 6 5 FC Schüttorf 09 3 2 1 5 6 VCO Berlin 2 1 1 4 ... Hauke Wagner, Jannik Lehmann, Marcin Kapusniak, Itamar Stein Milan Hrinak Martin

Tagung Schulinformatik, 10.45-12.00, HS16 im Studiengang ... · Tagung Schulinformatik, 10.45-12.00, HS16 Medien und Informatik im Studiengang Sek I Markus Marcin Alle Lehrpersonen

FMK2012: ERP-Erweiterungen mit FileMaker von Marcin Pankowski

TOP 20 JAZZ-CHARTS · John Scofield, Steve Swallow & Bill Stewart ECM Records 7 Arctic Riff 13 k Marcin Wasilewski Trio & Joe Lovano ECM Hazar Records 8 GoGo Penguin 2 Blue Notem

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 7 Effiziente Algorithmen und Datenstrukturen 7.1 Hochdimensionale Indexstrukturen.

Multivariate morphometric analysis of the Stipa ...ORIGINAL ARTICLE Multivariate morphometric analysis of the Stipa turkestanica group (Poaceae: Stipa sect. Stipa) Marcin Nobis1,3