Informations- visualisierung€¦ · Präsentation Zu präsentierenden Fakten sind a priori...
Transcript of Informations- visualisierung€¦ · Präsentation Zu präsentierenden Fakten sind a priori...
Informations-
visualisierung
Thema: 3. Darstellung von mehrdimensionalen Daten
Dozent: Dr. Dirk [email protected]
Sprechstunde: nach Vereinbarung
Umfang: 2
Prüfungsfach: Modul Fortgeschrittene ComputergraphikMedizininformatik, Angewandte Informatik
Informationsvisualisierung, WS 2016/2017 3-2
Übersicht
3. Darstellung von mehrdimensionalen Daten
3.1 Einleitung
3.2 Datentypen
3.3 Uni-variate Daten
3.4 Bi-variate Daten
3.5 Tri-variate Daten
3.6 Multi-variate Daten
3.7 Anordnung der Dimensionen
Informationsvisualisierung, WS 2016/2017 3-3
3.1. Einleitung
Informationsvisualisierung dient vor allem drei Zielen:
1. Erkundende Analyse
Es gibt keine Hypothesen.
Visualisierungsprozess zeichnet sich durch eine interaktive,
ungerichtete Suche nach Strukturen aus.
Im Ergebnis führt dies zu Visualisierungen der Daten, aus denen
Hypothesen abgeleitet werden können.
Informationsvisualisierung, WS 2016/2017 3-4
3.1. Einleitung
Informationsvisualisierung dient vor allem drei Zielen:
2. Überprüfende Analyse
Es existieren zu überprüfende Hypothesen.
Visualisierungsprozess unterstützt eine zielorientierte
Untersuchung der Hypothesen.
Als Ergebnis entsteht eine Visualisierung der Daten, welche mit
den Hypothesen verglichen werden. Dies ermöglicht es, die
Hypothesen zu bestätigen oder zu verwerfen.
Informationsvisualisierung, WS 2016/2017 3-5
3.1. Einleitung
Informationsvisualisierung dient vor allem drei Zielen:
3. Präsentation
Zu präsentierenden Fakten sind a priori festgelegt.
Visualisierungsprozess besteht aus Auswahl geeigneter
Präsentationstechniken.
Ergebnis stellt eine Visualisierung der Daten von hoher
Qualität dar, welche die ausgewählten Fakten repräsentiert.
Informationsvisualisierung, WS 2016/2017 3-6
3.1. Einleitung
Referenzmodell
Daten TabellenVisuelle
StrukturenAnsichten
Daten Transformationen
Visuelle Abbildung
Ansichts-Transformation
Interaktion
Aufgabe
Daten Visuelle Darstellung
[CMS:17ff]
Informationsvisualisierung, WS 2016/2017 3-7
3.2. Datentypen
Informationsvisualisierung wird in vielen Anwendungsdomänen
genutzt.
Im Prinzip kann jede Datei oder Sammlung von Dateien im
Rechner Ausgangspunkt einer Informationsvisualisierung sein,
einschließlich Algorithmen und Prozesse
(Softwarevisualisierung).
Informationsvisualisierung, WS 2016/2017 3-8
3.2. Datentypen
Unterteilung von möglichen Daten in Klassen hängt eng mit
Klassifikation von Wissen zusammen
Problem kann deshalb bislang nicht endgültig gelöst werden
Basierend auf Ideen aus Softwaremodellierung und
Datenbanken – Unterscheidung nach folgenden Elementen:
Objekte, Dinge, Einheiten, Instanzen (engl. entity)
Relationen (zwischen Objekten)
Attribute (von Objekten oder Relationen)
Operationen (auf Objekten oder Relationen)
Metadaten (Ergebnisse von Datenanalysen – abgeleitete Objekte und
Relationen ggf. mit Attributen)
Informationsvisualisierung, WS 2016/2017 3-9
3.2. Datentypen
Folgende Liste enthält wesentliche Datenquellen und ihre
Einordnung gemäß der Einteilung der Datentypen:
Tabellen: Objekte mit Attributen
Mediadaten: Objekte mit Attributen, teilweise auch Relationen
Graphen: Objekte und Relationen, möglicherweise mit Attributen
Prozesse: Objekte mit Operationen und Relationen, oft mit Attributen
Auswahl der Visualisierungstechnik basiert im wesentlichen zunächst auf
dem Datentyp
Tabellen: multidimensionale Darstellungen
Mediadaten: multidimensionale Darstellungen, spezielle Darstellungen
Graphen: Darstellungen von Graphen (graph drawing)
Prozesse: meist basierend auf Darstellungen von Graphen
Informationsvisualisierung, WS 2016/2017 3-10
3.2. Datentypen
Tabellen
bestehen aus mehreren Datensätzen (Objekten) d1,...,dm
enthalten für jeden Datensatz jeweils einen Wert für eine feste
Menge von Attributen x1,...,xn
Die meisten Anwendungen im kaufmännischen Bereich und viele
Statistikanwendungen arbeiten mit tabellarischen Daten.
Informationsvisualisierung, WS 2016/2017 3-11
3.2. Datentypen
Mediadaten
Textdokumente: Jedes Dokument d ist formal ein Wort über einem
Alphabet A, d A*. Dokumente sind noch in Kapitel, Abschnitte,
Paragraphen, Sätze und Worte (Worte im üblichen Sinn ohne
Leerzeichen und Interpunktionen) untergliedert
Bilder: Bilddaten können in verschiedenen Formaten vorliegen,
beschreiben jedoch letztlich ein 2 oder 3-dimensionales Array von
Pixeln mit Farbwerten oder eine Vektorgraphik
Audiodaten: Folge von Frequenz- und Amplitudenwerten mit meist
konstanter zeitlicher Abfolge
Filmdaten: Folge von Einzelbildern mit meist konstanter zeitlicher
Abfolge
Multimediadateien: Filmdaten, Sounddaten, Bilder und Texte mit
zeitlichen und räumlichen Angaben verknüpft
Informationsvisualisierung, WS 2016/2017 3-12
3.2. Datentypen
Graphen
Graphen bestehen aus
Objekten (Knoten)
Relationen (Kanten)
Beiden Elementtypen können Attribute zugeordnet sein
Beispiele für Verbindungsstrukturen, welche sich durch Graphen
mit unterschiedlichen Spezialisierungen abbilden lassen:
Software-Struktur
Metabolische Netzwerke
Filesysteme
Internetverbindungen
Straßennetze
Kommunikationssysteme
Informationsvisualisierung, WS 2016/2017 3-13
3.2. Datentypen
Prozesse
Prozesse bestehen aus
Objekten
Relationen
Operationen
Häufig mit Attributen
Beispiele
Algorithmen
Prozesse im Software Engineering (z.B.
Softwareentwicklungsprozess)
Geschäftsprozessmodellierungen
Ablaufplanungen für Fabriken oder Kliniken
Informationsvisualisierung, WS 2016/2017 3-14
3.2. Datentypen
Mehrdimensionale Daten
Auswahl der Visualisierungstechnik basierend auf Anzahl und Kategorie der Attribute
Auswahl der visuellen Abbildung eines Attributes hängt u.a. von seiner Kategorie ab
Informationsvisualisierung, WS 2016/2017 3-15
3.2. Datentypen
Kategorisierung I (nach Ward 2011):
Nominal: nicht numerische Werte
Kategorisch: endliche Menge von Werten, ungeordnet
Ungeordnet: unendliche Menge von Werten, ungeordnet
Geordnet: endliche oder unendliche Menge von Werten, geordnet
Ordinal: numerische Werte
Binär: 0 und 1
Diskret: natürliche oder ganze Zahlen
Kontinuierlich: reelle Zahlen
Informationsvisualisierung, WS 2016/2017 3-16
3.2. Datentypen
Kategorisierung II [nach Ward 2011]:
Skala: drei Attribute, welche Variablenmaße definieren
Ordnungsrelation:
Daten können geordnet werden
Operationen: Vergleiche
Abstandsmetrik:
Abstände zwischen zwei Objekten können berechnet werden
Operationen: Vergleiche, Addition, Subtraktion
Absolute Null:
fester kleinster Wert, z.B. Gewicht, aber nicht Temperatur
Operationen: Vergleiche, Addition, Subtraktion, Multiplikation, Division
Informationsvisualisierung, WS 2016/2017 3-17
3.2. Datentypen
Auswahl der visuellen Abbildung in Abhängigkeit von der
Dimension (Anzahl der Attribute (Variablen)) der Daten
Dimension Bezeichnung
1D Uni-Variate Daten
2D Bi-Variate Daten
3D Tri-Variate Daten
≥4D Multi-Variate Daten
(Hyper-Variate Daten)
Informationsvisualisierung, WS 2016/2017 3-18
3.2. Datentypen
In der Informationsvisualisierung werden Daten in einem 2- oder
3-dimensionalen visuellen Raum dargestellt
Im Folgenden sind die Daten meistens quantitativ
Uni-, Bi- und Tri-Variate Daten werden normalerweise über die
Position von Markierungen auf orthogonalen Achsen dargestellt
Multi-Variate Daten sind schwieriger darzustellen
Wahrnehmung ist sehr wichtig für die visuelle Abbildung und die
Bildung von visuellen Strukturen
Informationsvisualisierung, WS 2016/2017 3-19
3.3. Uni-Variate Daten
Gegeben:
Eine Menge von Objekten mit
einem Attribute.
Frage:
Welche Verteilung hat dieses
Attribut?
Zusatzinformation:
In der Regel sind nominale
Attribute zur Bezeichnung der
Objekte vorhanden.
[R. Spence. Information Visualization. ACM Press/Addison Wesley, New York, ISBN 0-201-59626-1, 2001, page 35]
Informationsvisualisierung, WS 2016/2017 3-20
3.3. Uni-Variate Daten
Visuelle Abbildung:
Daten werden entlang einer Achse abgetragen
Werte werden dargestellt als
Punkte
Balken
Segmente
Möglicherweise zusammen mit Bezeichnern
[R. Spence. Information Visualization. ACM Press/Addison Wesley, New York, ISBN 0-201-59626-1, 2001, page 35]
Informationsvisualisierung, WS 2016/2017 3-21
3.3. Uni-Variate Daten
Alternative visuelle Abbildung
Statistische Kombination
Die Werte können zusammengefasst werden
Dies ist insbesondere dann sinnvoll, wenn es bei sehr vielen Daten zur
Überlagerung der Punkte kommen kann
Zum Einsatz kommen zusammenfassende statistische Verfahren
[R. Spence. Information Visualization. ACM Press/Addison Wesley, New York, ISBN 0-201-59626-1, 2001, page 35]
Informationsvisualisierung, WS 2016/2017 3-22
3.3. Uni-Variate Daten
Box-Plot Median:
50% der Werte liegen darüber, 50% darunter
Darstellung: Linie
25% und 75% - Prozentteile
Darstellung: Box
Whisker (Tukey)
Oberer Whisker: 75% + 1,5 * IQR (Interquartile Range)
Unterer Whisker: 25% - 1,5 * IQR
Darstellung: Balken
Ausreißer
Darstellung: individuelle Datenpunkte
Bis 3 IQR: „milde Ausreißer“[R. Spence. Information Visualization. ACM Press/Addison Wesley, New York, ISBN 0-201-59626-1, 2001, page 35]
Informationsvisualisierung, WS 2016/2017 3-23
3.3. Uni-Variate Daten
Box-Plot Varianten
Man kann Perzentile auch nur zusätzlich einzeichnen oder nur Median
und Varianz angeben
Whisker
2,5% und 97,5 % Quantile
Führt immer zu Punkten außerhalb der Whisker (5% aller Punkte)
Nicht notwendigerweise Ausreißer
[R. Spence. Information Visualization. ACM Press/Addison Wesley, New York, ISBN 0-201-59626-1, 2001, page 35]
Informationsvisualisierung, WS 2016/2017 3-24
3.3. Uni-Variate Daten
Plot Plot mit Bezeichungen Tukey Box Plot [Spence 2001]
Informationsvisualisierung, WS 2016/2017 3-25
Alternativen zur Darstellung von Tukey Boxplots
3.3. Uni-Variate Daten
[Spence 2001]
Informationsvisualisierung, WS 2016/2017 3-26
3.3. Uni-Variate Daten
Semantische Vergrößerung (Semantic zoom)
[R. Spence. Information Visualization. ACM Press/Addison Wesley, New York, ISBN 0-201-59626-1, 2001, page 39]
Informationsvisualisierung, WS 2016/2017 3-27
3.3. Uni-Variate Daten
Histogramme Können mit statistischen Angaben angereichert werden
[Spence 2001]
Informationsvisualisierung, WS 2016/2017 3-28
3.3. Uni-Variate Daten
Pie-Chart (Tortendiagramm, Kreisdiagramm)
[R. Spence. Information Visualization. ACM Press/Addison Wesley, New York, ISBN 0-201-59626-1, 2001, page 35]
Informationsvisualisierung, WS 2016/2017 3-29
3.3. Uni-Variate Daten
Pie-Charts
Zeigen relative/anteilige Verteilung
Meist für Geschäftsgraphiken
Kaum Verwendung im wissenschaftlichen Bereich
Probleme:
Fläche und Winkel sind schwieriger zu interpretieren als Länge
Schwierig für (numerische) Vergleiche
Nutzung von vielen Pie-Charts gleichzeitig ist sehr schwierig
Informationsvisualisierung, WS 2016/2017 3-30
3.4. Bi-Variate Daten
Gegeben:
Eine Menge von Objekten mit zwei Attributen.
Frage:
Welcher Zusammenhang besteht zwischen den Attributen?
[Spence 2001]
Informationsvisualisierung, WS 2016/2017 3-31
3.4. Bi-Variate Daten
Scatterplot
Punktdarstellungen in einem kartesischen Koordinatensystem
Beispiel: Hauspreise und Anzahl der Schlafzimmer werden gegenübergestellt
[Spence 2001]
Informationsvisualisierung, WS 2016/2017 3-32
3.4. Bi-Variate Daten
Bei präsentativer Visualisierung können zusätzlich statistische
Analyseergebnisse eintragen werden
Informationsvisualisierung, WS 2016/2017 3-33
3.4. Bi-Variate Daten
Histogramme
können verwendet werden
Müssen allerdings gekoppelt
werden (linked histograms)
Farbe
Pattern (Textur)
Interaktion
[Spence 2001]
Informationsvisualisierung, WS 2016/2017 3-34
3.5. Tri-Variate Daten
Gegeben:
Eine Menge von Objekten mit drei Attributen.
Frage:
Welcher Zusammenhang besteht zwischen den Attributen?
Informationsvisualisierung, WS 2016/2017 3-35
3.5. Tri-Variate Daten
3D-Scatterplot
Logische oder geometrische 2D-
Projektion der 3D Darstellung
Probleme
2D-Darstellung eines 3D-Raumes
Wie bestimmt man die Werte?
Verdeckungsproblem
[Spence 2001]
Informationsvisualisierung, WS 2016/2017 3-36
3.5. Tri-Variate Daten
Alternative zu 3D-Scatterplot:
Betrachtung aller achsenparallelen Projektionen (2D-
scatterplots)
Alle drei möglichen 1-1 Beziehungen können untersucht werden
[Spence 2001]
Informationsvisualisierung, WS 2016/2017 3-37
3.5. Tri-Variate Daten
Scatterplot-Matrix: Übersichtliche Anordnung von Scatterplots
Brushing: Markierung gleicher Punkte
Scatter Plot Matrix mit BrushingScatter Plot Matrix
[Spence 2001]
Informationsvisualisierung, WS 2016/2017 3-38
3.5. Tri-Variate Daten
Alternative: Repräsentation einer Dimension durch Größe oder
Farbe
Nachteil: Unterschiedliche Qualität in der Darstellung macht es
schwieriger, Korrelationen zu sehen
[Inspired by a lecture of J. Stasko]
Informationsvisualisierung, WS 2016/2017 3-39
3.5. Tri-Variate Daten
Mit Hilfe von Interpolation kann man auch Flächen zur Darstellung verwenden:
Schnitt-Ebenen können bei der Festlegung von Werten helfen („Flooding“)
In diesem Bereich treffen sich Informationsvisualisierung und
wissenschaftliche Visualisierung
[Spence 2001]
Informationsvisualisierung, WS 2016/2017 3-40
3.6. Multi-Variate Daten
Gegeben:
Eine Menge von Objekten mit mehr als drei Attributen
Frage:
Welcher Zusammenhang besteht zwischen den Attributen?
Lösungen:
Mehr als drei Attribute können nicht mehr nur über die Position
repräsentiert werden.
Übertragung der Tri-Variaten Ansätze
Scatterplot-Matrizen
Repräsentation mittels anderer visueller Attribute (z.B. Größe)
Neue Methoden
Informationsvisualisierung, WS 2016/2017 3-41
3.6. Multi-Variate Daten
Geometrische Ansätze (Projektion)
Scatterplot-Matrizen
Auch für n-dimensionalen Fall nutzbar
Es ergeben sich 𝑛2−𝑛
2verschiedene Koordinatenpaare
Hyperslice
Ohne strikte Festlegung auf orthogonale Projektionen
n² Schnitte fester Breite durch Daten legen
Prosection Views
Auswahl einer n-dimensionalen Teilmenge (Hyperwürfel)
Wird bei Projektion mit anderer Farbe dargestellt
[Ankerst et al. 2002][Cleveland W. S.: „Visualizing Data“ AT&T Bell Labortories, Murray Hill, NJ, revised edition]
Informationsvisualisierung, WS 2016/2017 3-42
3.6. Multi-Variate Daten
Scatterplot-Matrizen
[Ankerst et al. 2002][Cleveland W. S.: „Visualizing Data“ AT&T Bell Labortories, Murray Hill, NJ, revised edition]
Informationsvisualisierung, WS 2016/2017 3-43
3.6. Multi-Variate Daten
Hyperslice
[van Wijk, van Liere, Hyperslice, Proc. Vis 1993] [Ankerst et al. 2002]
Informationsvisualisierung, WS 2016/2017 3-44
3.6. Multi-Variate Daten
Prosection Views
[Su H., Dawkes H., Tweedie L., Spence R.: „An Interactive Visualization Tool for Tolerance Design“, TechnicalReport, Imperial College, London, 1995]
[Furnas G. W., Buja A.: „Prosections Views: Dimensional Inferecel through Sections and Projections“, Journal ofComputational and Graphical Statistics, Vol. 3, No. 4, 1994, pp. 323-353]
[Ankerst et al. 2002]
Informationsvisualisierung, WS 2016/2017 3-45
3.6. Multi-Variate Daten
Achsenbasierte Ansätze
Scatterplot
Hyperbox
Parallele Koordinaten
Star Plot
Star Koordinaten
RadVizTM
Flexible Linked Axes
Informationsvisualisierung, WS 2016/2017 3-46
3.6. Multi-Variate Daten
Hyperbox
Oberfläche eines dreidimensionalen Polytops wird gezeichnet
Sichtbare Polygone bestehen aus Vierecken, die genau allen
auftretenden Attributpaaren entsprechen
Weitere Attribute können auf die Oberfläche abgebildet werden
Farbe
Textur
[Spence 2001][Alpen und Carten, Hyperbox, Proc. IEEE Visualization, pp. 133-139, 1991]
6D-Hyperbox
Informationsvisualisierung, WS 2016/2017 3-47
3.6. Multi-Variate Daten
Parallele Koordinaten
Es werden n parallele Achsen gezeichnet, eine pro Attribut.
Jede Achse wird auf das [Minimum, Maximum]-Intervall der auftretenden
Werte des assoziierten Attributes skaliert.
Jeder Datensatz wird als Polygon dargestellt.
[Spence 2001][Inselberg 1985, Inselberg 1998, Wegman 1990]
Informationsvisualisierung, WS 2016/2017 3-48
3.6. Multi-Variate Daten
Parallele Koordinaten
[Spence 2001][Inselberg 1985, Inselberg 1998, Wegman 1990]
Informationsvisualisierung, WS 2016/2017 3-49
3.6. Multi-Variate Daten
Linienzüge zeigen lineare Abhängigkeiten der Daten.
Die Polygonzüge schneiden sich zwischen zwei Achsen in maximal einem
Punkt.
Man kann Regeln für k-dimensionale Unterräume ableiten.[Inselberg 1998]
[Ankerst et al. 2002]
Informationsvisualisierung, WS 2016/2017 3-50
3.6. Multi-Variate Daten
Leichtes Rauschen verursacht Probleme.
[Ankerst et al. 2002]
Informationsvisualisierung, WS 2016/2017 3-51
3.6. Multi-Variate Daten
Beispiele
[http://davis.wpi.edu/~xmdv/]
Informationsvisualisierung, WS 2016/2017 3-52
3.6. Multi-Variate Daten
Nachteile von parallelen Koordinaten
Bei einer großen Anzahl von Datensätzen gibt es viele Überlappungen
Relativ unflexibel (ohne Erweiterung)
Es werden nur 𝑛 − 1 von 𝑛2−𝑛
2möglichen Korrelationen zwischen zwei
Variablen angezeigt
Auswahl notwendig
Reihenfolge spielt eine wichtige Rolle
Untersuchungen zeigen:[Lane Harrison, Fumeng Yang, Steven Franconeri, Remco Chang. Ranking
Visualizations of Correlation Using Weber’s Law. IEEE TVCG Vol. 20(12), 2014]
Positive Korrelationen sind relativ schwer zu erkennen
Negative Korrelationen sind relativ einfach zu erkennen
Informationsvisualisierung, WS 2016/2017 3-53
3.6. Multi-Variate Daten
Parallele Koordinaten
Viele Erweiterungen
Um die Nachteile zu beseitigen, werden verschiedene Techniken eingesetzt
Fokus und Kontext (Kapitel „Interaktion“)
Brushing (Parvis, Kapitel „Interaktion“)
Clustering
Informationsvisualisierung, WS 2016/2017 3-54
3.6. Multi-Variate Daten
Parvis – Beispiele
[http://old.vrvis.at/via/research/ang-brush/]
Brushing
Informationsvisualisierung, WS 2016/2017 3-55
3.6. Multi-Variate Daten
Parvis – Beispiele
[http://old.vrvis.at/via/research/ang-brush/]
Brushing + Histogram
Informationsvisualisierung, WS 2016/2017 3-56
3.6. Multi-Variate Daten
Parvis – Beispiele
Auswahl über Achsenabschnitte und Winkel (in rot) → Fokus
[http://old.vrvis.at/via/research/ang-brush/]
Informationsvisualisierung, WS 2016/2017 3-57
3.6. Multi-Variate Daten
[Jimmy Johansson, Revealing Structure within Clustered Parallel Coordinates Displays,
InfoVis 2005]
Informationsvisualisierung, WS 2016/2017 3-58
3.6. Multi-Variate Daten
[Jimmy Johansson, Revealing Structure within Clustered Parallel Coordinates Displays,
InfoVis 2005]
Informationsvisualisierung, WS 2016/2017 3-59
3.6. Multi-Variate Daten
[Jimmy Johansson, Revealing Structure within Clustered Parallel Coordinates Displays,
InfoVis 2005]
Informationsvisualisierung, WS 2016/2017 3-60
3.6. Multi-Variate Daten
[Jimmy Johansson, Revealing Structure within Clustered Parallel Coordinates Displays,
InfoVis 2005]
Informationsvisualisierung, WS 2016/2017 3-61
3.6. Multi-Variate Daten
Star Plot
Wenn man Achsen nicht parallel,
sondern sternförmig anordnet,
erhält man den Star Plot.
[Spence 2001]
Informationsvisualisierung, WS 2016/2017 3-62
3.6. Multi-Variate Daten
Star Plot Alternativen
http://seamonkey.ed.asu.edu/~behrens/asu/reports/compre/comp1.html
Ein Stern für alle Datensätze Ein Stern pro Datensatz
Informationsvisualisierung, WS 2016/2017 3-63
3.6. Multi-Variate Daten
Star-Koordinaten
Kombination von Star Plots und
Scatterplots
Initial haben alle Achsen die
gleiche Länge
Die Punkten werden wie in der
Abbildung gezeigt positioniert
Interaktion
Skalieren der Achsen
Rotieren der Achsen
Auswahl von Punkten
8D-Star Coordinate
[http://people.cs.vt.edu/~north/infoviz/starcoords.pdf]
[E. Kandogan, “Visualizing multi-dimensional clusters, trends, and outliers using star coordinates”, Proc. of ACM SIGKDD Conference, 2001, pp.107-116.]
Informationsvisualisierung, WS 2016/2017 3-64
3.6. Multi-Variate Daten
Star-Koordinaten
[http://people.cs.vt.edu/~north/infoviz/starcoords.pdf]
[E. Kandogan, “Visualizing multi-dimensional clusters, trends, and outliers using star coordinates”, Proc. of ACM SIGKDD Conference, 2001, pp.107-116.]
Informationsvisualisierung, WS 2016/2017 3-65
RadVizTM
Bei RadViz werden Achsen ebenfalls radial aufgespannt
Werte der einzelnen Attribute werden jedoch als Federkonstanten
interpretiert, die einen Punkt, der ein Objekt darstellt, zu einem Eckpunkt zieht
Dabei werden alle Attribute über ihr jeweiliges Min-Max-Intervall skaliert und in
den nichtnegativen Raum verschoben (etwa alle auf [0, 1]).
3.6. Multi-Variate Daten
[Ankerst et al. 2002]
Informationsvisualisierung, WS 2016/2017 3-66
RadVizTM
3.6. Multi-Variate Daten
[Ankerst et al. 2002]
Informationsvisualisierung, WS 2016/2017 3-67
[Jarry H.T. Claessen, Jarke J. van Wijk, Flexible Linked Axes for Multivariate
Data Visualization, InfoVis 2011]
3.6. Multi-Variate Daten
Informationsvisualisierung, WS 2016/2017 3-68
[Jarry H.T. Claessen, Jarke J. van Wijk, Flexible Linked Axes for Multivariate
Data Visualization, InfoVis 2011]
3.6. Multi-Variate Daten
Informationsvisualisierung, WS 2016/2017 3-69
[Jarry H.T. Claessen, Jarke J. van Wijk, Flexible Linked Axes for Multivariate
Data Visualization, InfoVis 2011]
3.6. Multi-Variate Daten
Informationsvisualisierung, WS 2016/2017 3-70
[Jarry H.T. Claessen, Jarke J. van Wijk, Flexible Linked Axes for Multivariate
Data Visualization, InfoVis 2011]
3.6. Multi-Variate Daten
Informationsvisualisierung, WS 2016/2017 3-71
[Jarry H.T. Claessen, Jarke J. van Wijk, Flexible Linked Axes for Multivariate
Data Visualization, InfoVis 2011]
3.6. Multi-Variate Daten
Informationsvisualisierung, WS 2016/2017 3-72
[Jarry H.T. Claessen, Jarke J. van Wijk, Flexible Linked Axes for Multivariate
Data Visualization, InfoVis 2011]
3.6. Multi-Variate Daten
Informationsvisualisierung, WS 2016/2017 3-73
[Jarry H.T. Claessen, Jarke J. van Wijk, Flexible Linked Axes for Multivariate
Data Visualization, InfoVis 2011]
3.6. Multi-Variate Daten
Informationsvisualisierung, WS 2016/2017 3-74
[Jarry H.T. Claessen, Jarke J. van Wijk, Flexible Linked Axes for Multivariate
Data Visualization, InfoVis 2011]
3.6. Multi-Variate Daten
Informationsvisualisierung, WS 2016/2017 3-75
[Jarry H.T. Claessen, Jarke J. van Wijk, Flexible Linked Axes for Multivariate
Data Visualization, InfoVis 2011]
3.6. Multi-Variate Daten
Informationsvisualisierung, WS 2016/2017 3-76
[Jarry H.T. Claessen, Jarke J. van Wijk, Flexible Linked Axes for Multivariate
Data Visualization, InfoVis 2011]
3.6. Multi-Variate Daten
Informationsvisualisierung, WS 2016/2017 3-77
[Stef van den Elzen, Jarke J. van Wijk, Small Multiples, Large Singles, EuroVis
2013]
3.6. Multi-Variate Daten
Informationsvisualisierung, WS 2016/2017 3-78
[Stef van den Elzen, Jarke J. van Wijk, Small Multiples, Large Singles, EuroVis
2013]
3.6. Multi-Variate Daten
Informationsvisualisierung, WS 2016/2017 3-79
[Stef van den Elzen, Jarke J. van Wijk, Small Multiples, Large Singles, EuroVis
2013]
3.6. Multi-Variate Daten
Informationsvisualisierung, WS 2016/2017 3-80
[Stef van den Elzen, Jarke J. van Wijk, Small Multiples, Large Singles, EuroVis
2013]
3.6. Multi-Variate Daten
Informationsvisualisierung, WS 2016/2017 3-81
[Stef van den Elzen, Jarke J. van Wijk, Small Multiples, Large Singles, EuroVis
2013]
3.6. Multi-Variate Daten
Informationsvisualisierung, WS 2016/2017 3-82
[Stef van den Elzen, Jarke J. van Wijk, Small Multiples, Large Singles, EuroVis
2013]
3.6. Multi-Variate Daten
Informationsvisualisierung, WS 2016/2017 3-83
[Stef van den Elzen, Jarke J. van Wijk, Small Multiples, Large Singles, EuroVis
2013]
3.6. Multi-Variate Daten
Informationsvisualisierung, WS 2016/2017 3-84
[Stef van den Elzen, Jarke J. van Wijk, Small Multiples, Large Singles, EuroVis
2013]
3.6. Multi-Variate Daten
Informationsvisualisierung, WS 2016/2017 3-85
[Stef van den Elzen, Jarke J. van Wijk, Small Multiples, Large Singles, EuroVis
2013]
Video
3.6. Multi-Variate Daten
Informationsvisualisierung, WS 2016/2017 3-86
3.6. Multi-Variate Daten
Dimensional Stacking
Unterteilung der Dimensionen in Gruppen
Hauptachsen: „Hauptdimensionen“
Teilabschnitte: „Nebendimensionen“
Gut bei einer geringen Kardinalität (Anzahl von Datenpunkten)
Beschränkt in der Anzahl der Dimensionen
Informationsvisualisierung, WS 2016/2017 3-87
3.6. Multi-Variate Daten
Dimensional Stacking
Längengrad
Breitengrad
Steinqualität
Bohrtiefe
Informationsvisualisierung, WS 2016/2017 3-88
3.6. Multi-Variate Daten
Stacked Histogram
Viele Ansätze versuchen mehrere Variablen in ein Histogramm zu packen
Absolutes HistogrammRelatives Histogramm
[Wikipedia.de][Hauser, 2006]
Informationsvisualisierung, WS 2016/2017 3-89
3.6. Multi-Variate Daten
ThemeRiver
Eine Sammlung von Dokumenten mit Zeitstempel wird in einzelne Zeitscheiben aufgeteilt
Informationsvisualisierung, WS 2016/2017 3-90
3.6. Multi-Variate Daten
Für sehr große Objektzahlen und/oder viele Attribute kommt
man mit den bisherigen Verfahren sehr schnell an die Grenze
der Bildschirmauflösung
Pro Objekt und Attribut werden viele Pixel verwendet
Überschneidungen verhindern schnell klare Sicht auf Daten
Pixelbasierte Verfahren (Dense Pixel Displays) verwenden die
Darstellungskapazität des Bildschirms optimal
Verwenden pro Attributwert eines Objektes genau ein Pixel
Farbe des Pixels gibt Wert an
Werte der einzelnen Attribute für alle Datensätze bilden eigene
Teilfenster (subwindows)
[Ankerst et al. 2002]
Informationsvisualisierung, WS 2016/2017 3-91
3.6. Multi-Variate Daten
[Ankerst et al. 2002]
Informationsvisualisierung, WS 2016/2017 3-92
3.6. Multi-Variate Daten
Folgende Fragen stellen sich
Wie werden die Pixel innerhalb der Teilfenster positioniert?
Sind neben Rechtecken andere Teilfensterformen möglich?
Wie können die Attribute (Dimensionen, Teilfenster) angeordnet
werden?
Informationsvisualisierung, WS 2016/2017 3-93
3.6. Multi-Variate Daten
Anordnung der Pixel
Suchen einer bijektiven Abbildung
𝑓: 1, … ,𝑚 → 1,… , 𝑏 × {1,… , ℎ}
𝑚 Objekte
𝑏 Teilfensterbreite
ℎ Teilfensterhöhe
so dass die Funktion
𝑖=1
𝑚
𝑗=1
𝑚
𝑑 𝑓 𝑖 , 𝑓 𝑗 − 𝑑 0,0 , 𝑏𝑖 − 𝑗
𝑚, ℎ𝑖 − 𝑗
𝑚
minimiert wird.
Dabei ist 𝑑(𝑓 𝑖 , 𝑓 𝑗 ) eine 𝐿𝑝-Norm (𝑝 = 1, 2): der Abstand von Pixel 𝑑𝑖zu 𝑑𝑗.
Informationsvisualisierung, WS 2016/2017 3-94
3.6. Multi-Variate Daten
Rekursive Muster
Man kann ein Muster der Ebene wi-mal in horizontaler Richtung und
dann hifach in vertikaler Richtung zeichnen.
[Ankerst et al. 2002]
Informationsvisualisierung, WS 2016/2017 3-95
3.6. Multi-Variate Daten
[Ankerst et al. 2002]
Informationsvisualisierung, WS 2016/2017 3-96
3.6. Multi-Variate Daten
[Ankerst et al. 2002]Hilbert-Kurve Z-Kurve
Informationsvisualisierung, WS 2016/2017 3-97
3.6. Multi-Variate Daten
Form der Teilfenster
Für Teilfenster eignen sich 2D-Arrays von Rechtecken, oder Kreissegmente.
[Ankerst et al. 2002]
Informationsvisualisierung, WS 2016/2017 3-98
3.6. Multi-Variate Daten
Kreissegmente – Beispiel
Kreissegmente stellen 50 Aktien
über 20 Jahre dar
Die Anordnung der Pixel beginnt
im Zentrum des Kreises und setzt
sich nach außen fort indem auf
einer Senkrechten zur Mittelachse
des Segmentes gezeichnet wird
Alle „älteren“ Werte liegen in der
Nähe des Zentrums und nahe
beieinander
[Ankerst, Keim, Kriegel: „Circle segments: A technique for visually exploring large dimensional datasets“. IEEE Visualization Hot Topics 1996]
[Ankerst et al. 2002]
Informationsvisualisierung, WS 2016/2017 3-99
3.6. Multi-Variate Daten
[Ankerst et al. 2002]
Informationsvisualisierung, WS 2016/2017 3-100
3.6. Multi-Variate Daten
VisDB wurde zur Visualisierung und Erforschung von Datenbanken
entwickelt[Keim D. A., Kriegel H.-P. “VisDB: Database Exploration using Multidimensional
Visualization,” Computer Graphics & Applications Journal, 1994]
Motivation:
Datenbanken enthalten eine große Menge von Elementen in jeweils n
Dimensionen
n-dimensionale Abfrage der Datenbank
Problem: oft keine exakte Übereinstimmung
Lösung: finden von „nahen“ Elementen
Informationsvisualisierung, WS 2016/2017 3-101
3.6. Multi-Variate Daten
Wie nahe ist ein Eintrag zu einer Anfrage?
Datensätze haben oft numerische Werte
Jeder Wert einer Dimension hat einen gewissen Abstand zur
Anfrage
Aufsummieren der Abstände
Relevanz ist der Kehrwert des Abstandes:
Kleiner Abstand → hohe Relevanz
Großer Abstand → geringe Relevanz
Beispiel (5D, Integer von 0 bis 255)
Anfrage: 6, 210, 73, 45, 92
Datensatz: 8, 200, 73, 50, 91
Abstand: 2 + 10 + 0 + 5 + 1 = 18
Relevanz: 1275 – 18 = 1267
Informationsvisualisierung, WS 2016/2017 3-102
3.6. Multi-Variate Daten
Kodierung
Berechne Relevanz aller Datensätze
Sortiere Datensätze nach ihrer Relevanz
Verwende Spiraltechnik zur Anordnung der Werte – von innen
nach außen
Verwende Farben zur Kodierung der Relevanz
Informationsvisualisierung, WS 2016/2017 3-103
3.6. Multi-Variate Daten
Spiraltechnik
Höchste Relevanz im Zentrum
Absteigende Relevanz nach außen
Informationsvisualisierung, WS 2016/2017 3-104
3.6. Multi-Variate Daten
Spiraltechnik
5 Dimensionen
Informationsvisualisierung, WS 2016/2017 3-105
3.6. Multi-Variate Daten
Gruppierung
Gruppiere alle Dimensionen eines Datensatzes
Anstelle von mehreren Fenstern
Informationsvisualisierung, WS 2016/2017 3-106
3.6. Multi-Variate Daten
VisDB – Beispiele
8 Dimensionen und 1000 Datensätze
Mehrere Fenster Gruppierung
Informationsvisualisierung, WS 2016/2017 3-107
3.6. Multi-Variate Daten
VisDB – Beispiele
Informationsvisualisierung, WS 2016/2017 3-108
3.6. Multi-Variate Daten
Ordinale Attribute lassen sich gut mit Farben darstellen
Pixeltechniken sind sogar eher für ordinale Variablen
geeignet
Mischungen von ordinalen und kontinuierlichen Attributen
sind in der Regel ebenfalls möglich
Aber: Bei koordinatenachsenorientierten Verfahren
führen die ordinalen Attribute mit einer kleinen Wertmenge
zu auffälligen Clustern
Diese springen dem Anwender ins Auge und überbetonen
damit diese Attribute
Informationsvisualisierung, WS 2016/2017 3-109
3.6. Multi-Variate Daten
Projektions- und Koordinatenachsenansätze eignen sich
nur sehr begrenzt für nominale Attribute, da die
Reihenfolge der Werte künstlich erzeugt werden muss.
Pixelbasierte Verfahren können dagegen gut mit
kategorischen Variablen umgehen, da Farben nach Kapitel
„Wahrnehmung“ im Allgemeinen nicht geordnet sind.
Einige Techniken sind für ordinale und nominale Attribute
besonders geeignet.
Informationsvisualisierung, WS 2016/2017 3-110
3.6. Multi-Variate Daten
Iconbasierte Techniken
Bei den iconbasierten (icon = Bildelement) Techniken werden
kleine Graphikelemente aufgrund der Werte eines oder
mehrerer Attribute verändert.
Darstellung auf dem Bildschirm mit Hilfe
von Werten weiterer Variablen
der geometrischen Lage
per ebenenfüllender Kurve (VisDB)
Informationsvisualisierung, WS 2016/2017 3-111
3.6. Multi-Variate Daten
Chernoff Faces
Bei den Chernoff Faces [Chernoff 1973] wird die Tatsache
ausgenutzt, dass Menschen Gesichter besonders gut
unterscheiden können.[H. Chernoff. The Use of Faces to Represent Points in k-dimensional Space Graphically, J. of
American Statistical Association 68:361-368, 1973]
[Spence 2001][http://bradandkathy.com/software/faces.html]
Informationsvisualisierung, WS 2016/2017 3-112
3.6. Multi-Variate Daten
Chernoff Faces
Bei den Chernoff Faces [Chernoff 1973] wird die Tatsache
ausgenutzt, dass Menschen Gesichter besonders gut
unterscheiden können.[H. Chernoff. The Use of Faces to Represent Points in k-dim‘ Space Graphically, J. of American
Statistical Association 68:361-368, 1973]
[Spence 2001]
Informationsvisualisierung, WS 2016/2017 3-113
3.6. Multi-Variate Daten
[Ankerst et al. 2002]
Informationsvisualisierung, WS 2016/2017 3-114
3.6. Multi-Variate Daten
Stick Figures Bei Strichfiguren (Stick Figures) werden zwei kontinuierliche oder ordinale
Attribute (falls vorhanden) zur Positionierung in der Ebene verwendet
Die übrigen Attribute werden für Winkel und/oder Längen der Striche
verwendet
[Ankerst et al. 2002][Tufte E. R.: „The Visual Display of Quantitative Information“', Graphics Press, Cheshire, CT, 1983]
[Pickett R. M.: „Visual Analyses of Texture in the Detection and Recognition of Objects“ in: PictureProcessing and Psycho-Pictorics, Lipkin B. S., Rosenfeld A. (eds.), Academic Press, New York,1970]
Informationsvisualisierung, WS 2016/2017 3-115
3.6. Multi-Variate Daten
Texturen aus diesen Figuren ergeben dann Datencharakteristika
[Ankerst et al. 2002]
Informationsvisualisierung, WS 2016/2017 3-116
3.6. Multi-Variate Daten
Shape Coding
Nutzt kleine Rechtecke, um die einzelnen Datensätze anzuzeigen
Hält für jedes Attribut ein Teilquadrat bereit
Rechtecke werden dann geeignet angeordnet, wozu häufig die Zeit (bei
Zeitreihen) verwendet wird
[Ankerst et al. 2002]
[Beddow J.: „Shape Coding of Multidimensional Data on a Mircocomputer Display“, Proc. IEEEVisualization, pp. 238-246, 1990,]
Informationsvisualisierung, WS 2016/2017 3-117
3.6. Multi-Variate Daten
[Ankerst et al. 2002]
Informationsvisualisierung, WS 2016/2017 3-118
3.7. Anordnung der Dimensionen
Clutter reduction in Multi-Dimensional Data Visualization[Wei Peng et al., Clutter Reduction in Multi-Dimensional Data Visualization
Using Dimension Reordering, InfoVis 2004]
Informationsvisualisierung, WS 2016/2017 3-119
3.7. Anordnung der Dimensionen
Maß für Clutter in Parallelen Koordinaten
Annahme: Ausreißer verschleiern die Struktur
Maß: Verhältnis von Ausreißern zur Gesamtanzahl der
Datenpunkte
𝑆𝑜𝑢𝑡𝑙𝑖𝑒𝑟: Anzahl der Ausreißer zwischen benachbarten
Dimensionen
Anzahl der benachbarten Paare: 𝑛 − 1
𝑆𝑎𝑣𝑔 =𝑆𝑜𝑢𝑡𝑙𝑖𝑒𝑟
𝑛−1
𝑆𝑡𝑜𝑡𝑎𝑙: Gesamtzahl der Datenpunkte
𝐶 =𝑆𝑎𝑣𝑔
𝑆𝑡𝑜𝑡𝑎𝑙=𝑆𝑜𝑢𝑡𝑙𝑖𝑒𝑟𝑛−1
𝑆𝑡𝑜𝑡𝑎𝑙=𝑆𝑜𝑢𝑡𝑙𝑖𝑒𝑟
𝑛−1 ∙𝑆𝑡𝑜𝑡𝑎𝑙
Informationsvisualisierung, WS 2016/2017 3-120
3.7. Anordnung der Dimensionen
[Wei Peng et al., Clutter Reduction in Multi-Dimensional Data Visualization Using
Dimension Reordering, InfoVis 2004]
Informationsvisualisierung, WS 2016/2017 3-121
3.7. Anordnung der Dimensionen
[Wei Peng et al., Clutter Reduction in Multi-Dimensional Data Visualization Using
Dimension Reordering, InfoVis 2004]
Informationsvisualisierung, WS 2016/2017 3-122
3.7. Anordnung der Dimensionen
[Wei Peng et al., Clutter Reduction in Multi-Dimensional Data Visualization Using
Dimension Reordering, InfoVis 2004]
Informationsvisualisierung, WS 2016/2017 3-123
3.7. Anordnung der Dimensionen
[Wei Peng et al., Clutter Reduction in Multi-Dimensional Data Visualization Using
Dimension Reordering, InfoVis 2004]
Informationsvisualisierung, WS 2016/2017 3-124
3.7. Anordnung der Dimensionen
[Wei Peng et al., Clutter Reduction in Multi-Dimensional Data Visualization Using
Dimension Reordering, InfoVis 2004]
Informationsvisualisierung, WS 2016/2017 3-125
3.7. Anordnung der Dimensionen
[Wei Peng et al., Clutter Reduction in Multi-Dimensional Data Visualization Using
Dimension Reordering, InfoVis 2004]
Visualization Algorithm complexity Dataset Size Dim. Time
(min)
Parallel
Coordinates
𝑂(𝑛 ∙ 𝑛!) AAUP 1161 9 0:03
Cereal 77 10 0:23
Voy 744 11 4:02
Scatterplot
Matrices
𝑂(𝑛2 ∙ 𝑛!) Voy 744 11 (6) 0:05
Star Glyphs 𝑂(𝑚 ∙ 𝑛 ∙ 𝑛!) AAUP 1161 9 3:13
Cars 392 7 0:18
Dimensional
Stacking
𝑂(𝑚2 ∙ 𝑛!) Coal Disaster 191 5 0:10
Detroit 13 7 0:05
Informationsvisualisierung, WS 2016/2017 3-126
Literatur
R. Spence. Information Visualization. Addison-Wesley, Reading, MA, USA, 2001.
M. Ward, G. Grinstein, D. Keim. Interactive Data Visualization: foundations, techniques, and applications. A K Peters. Ltd, 2011.
M. Ankerst, G. Grinstein, D. Keim. Visual Data Mining, Tutorial at KDD 2002.