Analyse raumbezogener Daten Statistische Methoden · Analyse raumbezogener Daten-Statistische...

Post on 24-Sep-2019

4 views 0 download

Transcript of Analyse raumbezogener Daten Statistische Methoden · Analyse raumbezogener Daten-Statistische...

Analyse raumbezogener Daten-

Statistische Methoden

Prof. Dr.-Ing. Ralf BillUniversität Rostock

Agrar- und Umweltwissenschaftliche FakultätProfessur für Geodäsie und Geoinformatik

GI_AnalyseStatistik © 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

01 5 10 15

5

1

10

Anliegen

Anknüpfen an die Schulmathematik zur Statistik

Kennenlernen ausgewählter Statistikanalysemethoden

GI_AnalyseStatistik © 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill 2

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Inhalte

Beschreibende, schließende und beurteilende Statistik

Univariate -, bivariate und multivariate Statistik

Interpolation und Geostatistik

GI_AnalyseStatistik 3

STATISTISCHE METHODEN

GI_AnalyseStatistik © 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill 4

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Statistische Methoden

Statistik ist eine wissenschaftliche Disziplin, deren Gegenstand die Entwicklung und Anwendung formaler Methoden zur Gewinnung, Beschreibung und Analyse sowie zur Beurteilung quantitativer Beobachtungen (Daten) ist. (Vogel, 1997)

Stochastik umfasst Wahrscheinlichkeitstheorie, Statistik und Kombinatorik

In GIS speziell Geostatistik im Zusammenhang mit Interpolationsverfahren

GI_AnalyseStatistik 5

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Stochastik

Beschreibende Statistik(Deskriptive Statistik)

Statistik

Schließende StatistikInduktive Statistik, Inferenzstatistik

Wahrscheinlichkeits-theorie

Methoden der Aufbereitung und Darstellung von Daten

Verfahren des Schlusses von Stichprobe auf Grundgesamtheit

Bewertung von Schließen mit Methoden der Wahrscheinlichkeitsrechnung durchIrrtums- bzw. Sicherheitswahrscheinlichkeiten

Beurteilende Statistik

- Tabellarisch- Graphisch- Charakteristische Kennzahlen

- Schätzverfahren- Testverfahren

- Theoretisches Fundament- Wahrscheinlichkeitsverteilungen

GI_AnalyseStatistik 6

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Skalenniveau

Nichtmetrische Skalen: Nominalskala findet Anwendung, wenn die Ausprägungen einer Variablen durch

Bezeichnungen in Form von Worten, Buchstaben oder Zahlen festgelegt und nicht im Sinne einer Größer/Kleiner-Relation vergleichbar sind. Sie dient der Identifikation von Untersuchungselementen. Als Operationen zwischen den Daten kommt nur ein = (eq) und ein not(eq) vor. Bsp: Sozio-ökonomische Daten wie Geschlecht, Religion, Beruf etc.

Ordinalskala: Die Ausprägungen einer Variablen, die in eine Rangordnung gebracht werden können, nennt man rang- oder ordinalskaliert. Sie dienen zur Identifikation und Ordnung. Als Operationen gelten neben der Prüfung auf Gleichheit/Ungleichheit zusätzlich noch Vergleichsoperatoren xi < xj und xi > xj. Bsp: Rangfolgen, Angaben in der Seismologie wie z.B. gemäß der Richterskala.

7

gering

hoch

Informations-gehalt

SkalenNominal Ordinal Metrisch

GI_AnalyseStatistik 7

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Skalenniveau

Metrische Skalen: liegt eine konstante Maßeinheit zugrunde (1 m, 1 g, 1° Celsius). Somit sind Vergleiche zwischen Werten möglich. Die Messung von Schadstoffen mag als Beispiel für metrisch skalierte Daten dienen. Intervallskalen besitzen keinen Nullpunkt. Sie dienen der Identifikation, Ordnung und

Bewertung (additiv). Es lassen sich demnach keine interpretierbaren Multiplikationen und Divisionen mit Variablenwerten durchführen, sondern neben der Prüfung auf Gleichheit und der größer/kleiner-Beziehung nur Additionen durchführen, wie z.B.

xi = xj + a oder xi + xj = c. Bsp.: z.B. Temperaturen in °C oder °F.

Bei Rationalskalen ist dagegen bei Null der Nullpunkt und ein Vielfaches eines Variablenwertes kann auch inhaltlich als Vielfaches interpretiert werden. Sie dienen der Identifikation, Ordnung und Bewertung (multiplikativ). Als Rechenoperationen sind zusätzlich zu den bisher genannten nach Multiplikationen/Divisionen möglich, also z.B. xi = xj * a, xi = xj / b oder xi * xj = c. Bsp.: Temperaturen in °K, Längen, Gewichte und Flächenangaben.

8GI_AnalyseStatistik 8

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Deskriptive Statistik

Deskriptive Statistik: Zielsetzung ist es, den Informationsgehalt von Daten durch numerische und grafische Methoden zu verdichten. Numerische Methoden: Lagemaße (Mittelwert, Median), Streuungsmaße (Schiefe),

Schiefemaße (Schiefekoeffizient) und Percentilwerte. Graphische Methoden: Box-Plots und Histogramme

7654321

A B C D E F

GI_AnalyseStatistik 9

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Inferentielle Statistik

Schließende (Inferentielle) Statistik: Dabei soll ein Schluss von einer Stichprobe auf die zugehörige Grundgesamtheit gezogen werden, unter Berücksichtigung einer bestimmten statistischen Sicherheit (0-100%), einer Sicherheitswahrscheinlichkeit oder einer Irrtumswahrscheinlichkeit.

Teilbereiche: Schätzmethoden (Punktschätzung, Intervallschätzung) und Testverfahren. z.B. Ausreißertests mittels Boxplot

- Q3=75.Percentil, Q1=25.Percentil - Interquartilabstand IQR = Q3 – Q1

- Extreme Ausreißer: mehr als 3*IQR vom Median entfernt

GI_AnalyseStatistik 10

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Bivariate Analyse: Korrelation

Bei der Erhebung von Daten für eine Grundstückswertermittlung sind folgende Daten entstanden. Gibt es einen stochastischen Zusammenhang zwischen Y=„Kaufpreis“ und X=„Entfernung zum Zentrum“?

EntfernungZentrum X [km]

7,5304052030261016241535

KaufpreisY [€/m²]

2751006035030015024029022017520050

Datenquelle: W. Niemeier (2006)

+

50 €/m2

175 €/m2150 €/m2

300 €/m2290 €/m2275 €/m2

350 €/m2

240 €/m2

220 €/m2

200 €/m2 100 €/m2

60 €/m2

Zentrum

GI_AnalyseStatistik 11

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Bivariate Analyse: Korrelation

Grundstückswertermittlung: Gibt es einen stochastischen Zusammenhang zwischen Y=„Kaufpreis“ und X=„Entfernung zum Zentrum“?

EntfernungZentrum X [km]

7,530405

2030261016241535

KaufpreisY [€/m²]

27510060

35030015024029022017520050

10 20 30 40Entfernung vom Zentrum [km]

100

200

300

400

Kaufpreis [€/m²]

Quelle: modifiziert nach W. Niemeier (2006)

Lösung: stark negativ korreliert rxy = -0,89

GI_AnalyseStatistik 12

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Bivariate Analyse: Regressionsgerade

Grundstückswertermittlung: Gibt es einen funktionalen Zusammenhang zwischen Y=„Kaufpreis“ und X=„Entfernung zum Zentrum“?

10 20 30 40Entfernung vom Zentrum [km]

100

200

300

400

Kaufpreis [€/m²]

Lösung:Y=367,30 [€/m²] - 7,727 [€/m²]/[km] * X [km]

EntfernungZentrum X [km]

7,5304052030261016241535

KaufpreisY [€/m²]

2751006035030015024029022017520050

Datenquelle: W. Niemeier (2006)GI_AnalyseStatistik 13

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Interpolation

Interpolation weist gegebenen diskreten Daten (z. B. Messwerten) eine kontinuierliche Funktion zu, die diese Daten abbildet. Die Interpolation ist stets auch eine Art von Approximation: die betrachtete Funktion wird durch die Interpolationsfunktion in den Stützstellen oftmals exakt wiedergegeben und in den restlichen Punkten immerhin näherungsweise. Die Approximationsgüte hängt dabei vom gewählten Ansatz ab.

Interpolation - exaktes Anpassen Approximation - bestes Anpassen (Smoothing) Extrapolation – Anpassen außerhalb des

Datenbereichs

im Raster

im Dreieck

in Linie

14

3 (x,y,z)

1 (x,y,z)

2 (x,y,z)P (x,y,?)

1 2

3 4

P (x,y,?)

1

2

(x,y,z)(x,y,z)

(x,y,z)

(x,y,z)

(x,y,z)

(x,y,z)

P (x,y,?)

Z

S

xx

x

x

x

x

xx

x xx

ApproximationInterpolation Smoothing

Filtering

Extrapolation

Prädiktion

GI_AnalyseStatistik 14

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Kurveninterpolation

Gegeben ist ein Satz von Punkten in x,y oder x,y,z Diese wird in eine Parameterbeschreibung einer ebenen Kurve von x,y zu S,T

gewandelt, wobei T = X(T) oder Y(T) als Funktion der Polygonlänge (Abszisse) und S = x oder y (Ordinate) dargestellt wird.

Quelle: K. Kraus (2000)

Y

Y

XT

X

T = 0

GI_AnalyseStatistik 15

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Interpolationsansätze (Kurveninterpolation)

Beispiel

Ti Si

1 33 65 37 28 1

10 112 115 6

5

01 5 10 15

10

5

1

Lineare Verbindung

01 5 10 15

10

1

Polynominterpolation

0 1 5 10 15

10

5

1

Akima-Interpolation

0

5

1

10

Zusammenges. kubische Polynome

1 5 10 15

5

GI_AnalyseStatistik 16

Quelle: K. Kraus (2000)

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Polynominterpolation

Verbindung von n Punkten durch Polynomgrad (n-1) möglich S = S(T) = a0+a1T+a2T²+ ... + an-1T (n-1)

Jeder Punkt i resultiert in einer linearen Gleichung vom Typ Si = a0+a1Ti+a2Ti²+ ... + an-1 Ti

(n-1)

Die ai müssen bestimmt werden aus dem linearen Gleichungssystem z = FT a => a = F-1 z

Im Ergebnis ergibt sich eine glatte Kurve.

Probleme: Üblicherweise schlechte Anpassungsqualität, da undulierend Instabiles Gleichungssystem

Quelle: K. Kraus (2000)

GI_AnalyseStatistik 17

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Polynominterpolation

Si = a0+a1Ti+a2Ti²+ ... + an-1Ti(n-1)

Beispiel: (n=8) Ti = {1,3,5,7,8,10,12,15} , Si {3,6,3,2,1,1,1, 6}

3 1 1 1 1 1 1 1 1 a0

6 1 3 9 27 81 243 729 2187 a1

3 1 5 25 125 625 3125 ... ... a2

2 = 1 7 49 343 2401 ... ... ... a3

1 1 8 64 512 4096 ... ... ... a4

1 1 10 100 1000 ... ... ... ... a5

1 1 12 144 1728 ... ... ... ... a6

6 1 15 225 3375 ... ... ... ... a7

Lösung: a0=-36.0, a1= 70.38, a2= -41.549, a3= 11.9113, a4= -1.86753, a5= 0.162959, a6= -0.0074086, a7= 0.00013648

01 5 10 15

10

5

1

Quelle: K. Kraus (2000)GI_AnalyseStatistik 18

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Stückweise kubische Polynominterpolation

Das Interval [Ti,Ti+1] wird beschrieben durch kubisches Polynom vom Typ S[ i,i+1] =a0[ i,i+1]+a1[ i,i+1](T-Ti)+a2[ i,i+1](T-Ti)²+a3[ i,i+1](T-Ti)³

(n-1)-kubische Polynome müssen gelöst werden => 4(n-1) Polynomkoeffizienten müssen bestimmt werden

S[ i,i+1] =a0[ i,i+1]+a1[ i,i+1](T-Ti)+a2[ i,i+1](T-Ti)²+a3[ i,i+1](T-Ti)³ Resultiert in tridiagonaler Koeffizientenmatrix, die sehr effizient gelöst werden kann Weitere Gleichungen z.B. gleiche Neigung am Übergang, gleiche Krümmung als

Tangentenbedingungen an den End- bzw. Übergangspunkten => slope[1]=0, slope[n]=0 oder slope[1] =slope[n]

Quelle: K. Kraus (2000)

S[ i - 1,i ]

S 1

S i-1

S i S i+1

T1 Ti-1 T i T i+1

S [ i, 1 + 1 ]

Tn

SnT

S

GI_AnalyseStatistik 19

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Stückweise kubische Polynominterpolation

S[ i,i+1] =a0[ i,i+1]+a1[ i,i+1](T-Ti)+a2[ i,i+1](T-Ti)²+a3[ i,i+1](T-Ti)³

Beispiel: (n=8) Ti = {1,3,5,7,8,10,12,15} , Si {3,6,3,2,1,1,1, 6}

8/3 2/3 a2 [ 2,3] -32/3 8/3 2/3 a2 [3,4] 1

2/3 2 1/3 a2 [ 4,5] = -1/21/3 2 2/3 a2 [ 5,6] 1

2/3 8/3 2/3 a2 [ 6,7] 02/3 13/3 a2 [ 7,8] 5/3

Intervall: [1,2] [2,3] [3,4] [4,5] [5,6] [6,7] [7,8]a2 0 -1.3441 0.8764 -0.6617 0.7170 -0.3203 0.5641a0 3.0 6.0 3.0 2.0 1.0 1.0 1.0a1 2.3961 -0.2921 -1.2275 -0.7979 -0.7425 0.0510 0.5386a3 -0.2240 0.3701 -0.2563 0.4596 -0.1729 0.1474 -0.0627

Quelle: K. Kraus (2000)

01 5 10 15

5

1

10

GI_AnalyseStatistik 20

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Interpolation/Approximation von Oberflächen

TIN-Interpolation Interpolation mittels Flächensummation Interpolation mittels Kleinster Quadrate-Methoden Stückweise lineare Polynome Polynominterpolation Kriging Nächster Nachbar

Minimale Krümmung

Inverse Distance

Spline

Polynomregression

Flächen-Summation

Kriging

TIN-Interpolation

GI_AnalyseStatistik 21

StochastischeAnsätzeDeterministische

Ansätze

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Interpolation – ein Beispiel

X Y Z7 6 85 1 21 1 24 3 20 4 24 5 17 3 42 6 106 3 43 3 11 3 3

GI_AnalyseStatistik 22

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Dreiecksinterpolation

Natürliches Koordinatensystem

Interpolationsansatz

y

x

v

u

12

33 (0,1)

BeliebigesKoordinatensystem Dreieckskoordinaten

Natürliche

1 (0,0) 2 (1,0)

1 2

3

L = 0 3

L = 1/33

L = 2/33

L = 13

L=2/3

L=1/3

L=0

L=1

11 1 1

L= 2

/32

L= 1/

32

11

L= 02

L= 12

x y

z

1

2

3

x y

z

1

2

3

P P

a. linear b. kubisch

GI_AnalyseStatistik 23

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Dreiecksinterpolation

Interpolationsansatz

Problem: Dreiecksvermaschung

z=0 z=10

z=5

z=0

2.5

5.07.5

KubischeInterpolation

z=0 z=10

z=5

z=0

2.5

5.0

7.5

LineareInterpolation

z=0 z=10

z=5

z=0LineareInterpolation

z=0 z=10

z=5

z=0

2.5

5.0

7.5

LineareInterpolation

GI_AnalyseStatistik 24

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Dreiecksinterpolation-linear

GI_AnalyseStatistik 25

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Interpolation/Approximation im Raster

Interpolation mittels Flächensummation Interpolation mittels Kleinster Quadrate-Methoden Stückweise lineare Polynome Polynominterpolation Kriging Nächster Nachbar

Minimale Krümmung

Inverse Distance

Spline

Polynomregression

Flächen-Summation

Kriging

Andere Verfahren

StochastischeAnsätze

DeterministischeAnsätze

GI_AnalyseStatistik 26

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Interpolation-Nächster Nachbar

Übernahme der z-Komponente vom nächstliegenden Nachbar Setzt genügend dichte Punktverteilung voraus

GI_AnalyseStatistik 27

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Interpolation-Minimale Krümmung

Anwendung besonders in Geowissenschaften Dünne deformierbare Platte durch alle Punkte Glatte Oberfläche Iterative Lösung eines Gleichungssystems

GI_AnalyseStatistik 28

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Inverse Distance Weighting (IDW)

Interpolationsverfahren mit zur Distanz umgekehrt proportionaler Gewichtung.

Typische Anwendungen, wo Stützdaten in einem dichten regelmäßigen Raster vorliegen und ein noch dichteres Raster interpoliert wird.

Voraussetzung ist eine ortsabhängige kontinuierliche Variable, z.B. für Lärmkarten.

Problematisch wenn Stützpunkte Mangelware sind.

Unschöne Artefakte, die sog. “Bull-Eyes“, um Stützpunkte herum

)()(ˆ1

0 i

n

ii xZxZ

n

in

i

ki

ki

ii

n

ii

d

dxZxZxZ

1

1

10 )()()(ˆ

Quelle: S. Peters (2008) Diplomarbeit TU MünchenGI_AnalyseStatistik 29

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Inverse distance weighting-Interpolation

GI_AnalyseStatistik 30

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Approximation-Polynomiale Regression

GI_AnalyseStatistik 31

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Multilog

0,8

1

1,2

1,4

1,6

1,8

2

0 0,2 0,4 0,6 0,8 1 1,2

Flächensummation: Multilogarithmic Kernel

GI_AnalyseStatistik 32

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Thin Plate Spline

0,6

0,8

1

1,2

1,4

1,6

1,8

2

0 0,2 0,4 0,6 0,8 1 1,2

Flächensummation: Thin plate spline als Kernel

GI_AnalyseStatistik 33

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Flächensummation: Cubic splines als Kernel

Natural Cubic Spline

0,8

11,2

1,4

1,6

1,82

2,2

2,42,6

2,8

33,2

3,4

0 0,2 0,4 0,6 0,8 1 1,2

GI_AnalyseStatistik 34

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Flächensummation: Multiquadratic Kernel

MultiquadricInvers Multiquadric

0,6

0,8

1

1,2

1,4

1,6

0 0,2 0,4 0,6 0,8 1 1,2

GI_AnalyseStatistik 35

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Spline

Spline ist eine mathematisch stückweise Polynomfunktion, die sich perfekt an jeden Stützpunkt anschmiegt.

Ziel der Spline-Interpolation ist es, eine geglättete Oberfläche mit minimaler Krümmung zu erzeugen.

Spline ist ein exakter Interpolator. Oberflächeninterpolation

)(),(),(1

j

N

jj rRyxTyxS

N Anzahl der Punkte (j = 1, 2, ... N)λj Koeffizienten der Lösung des linearen Gleichungssystems rj Distanz zwischen Punkt (x,y) und dem j-ten Punkt

Quelle: S. Peters (2008) Diplomarbeit TU MünchenGI_AnalyseStatistik 36

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Regularized versus Tension Spline

Regularized (normalisierte) Spline-Funktion:

Tension Spline:

2ln1

2ln

421)( 0

22 rcrKcrrrR

T(x,y) = a1 + a2 x + a3 y

rKcrrR 02 2

ln2

1)(

T(x,y) = a1

t, j veränderbare Parameter (“Gewichte”)r Distanz zwischen Stützpunkt und zu interpolierender Stelle K0 modifizierte Bessel-Funktionc Konstante mit dem Wert 0.577215ai Koeffizienten der Lösung des linearen Gleichungssystems T(x,y)

Quelle: S. Peters (2008) Diplomarbeit TU München

Tension passt die Elastizität der zu generierenden Oberfläche an die einfließenden Werte der Stützpunkte an. Ein höherer Gewichtungsfaktor ("weight") macht die zu generierende Oberfläche welliger. Die Tension-Option führt dazu, dass die erste Ableitung, also die Steigung an den Stützpunkten zwar stetig, aber nicht mehr unbedingt glatt ist. Größere Werteänderungen in benachbarten Stützpunkten werden damit besser approximiert.

GI_AnalyseStatistik 37

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Splines - Kubische Polynome

GI_AnalyseStatistik 38

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Demo: Interpolation IDW versus Spline

Punkte durch Höhenliniendigitalisierung aus TK 10

GI_AnalyseStatistik 39

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Geostatistik: Zufallsvariable und stochastischer Prozess

In der Geostatistik werden die Werte der Beobachtungsvariable an den beprobten Orten x1,…,xn als Realisationen der Zufallsvariablen Z(x1),…,Z(xn) angesehen. Dabei werden nicht nur alle Stützpunkte xi sondern auch alle zu interpolierenden Werte an den unbeprobten Orten x0 als Realisationen von Zufallsvariablen aufgefasst.

Die Menge aller Zufallsvariablen Z = {Z(x), x im Untersuchungsgebiet} wird stochastischer Prozess oder Zufallsfunktion genannt (HINTERDING 1998).

Annahme: Die räumliche Variabilität jeder Zufallsvariable Z lässt sich durch die Summe von 3 Komponenten erklären:

Z(x) = m(x) + ‘(x) + “(x)

mit: m(x) = Trendfläche, ‘(x) = zufällige Komponente, ‘‘(x) = zufälliges Rauschen

GI_AnalyseStatistik 40

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Geostatistik: Kriging -Voraussetzungen

Autokorrelation ist die Korrelation einer Variable mit sich selbst. Räumliche Autokorrelation bedeutet, dass im Raum näher beieinander liegende Punkte einen größeren räumlichen Zusammenhang besitzen, ihre Werte also ähnlicher sind als weiter auseinander liegende Punkte.

Annahme der Normalverteilung der Stützpunkte: keine zwingend notwendige Voraussetzung, jedoch ist die Qualität und Zuverlässigkeit der Interpolation mit normalverteilten Daten wesentlich höher.

Stationarität: stationärer stochastischer Prozess, also die Tatsache, dass die Zufallsvariable stationär ist (HINTERDING 1998). Nach CLARK (2001) bedeutet Stationarität 1. Ordnung, dass alle Stichproben von

derselben Wahrscheinlichkeitsverteilung kommen und diese sich nicht bei Bewegung im Raum verändert. Stationarität 2. Ordnung heisst, dass die Datenwerte als Realisierungen eines Zufallsprozesses einen in der lokalen Suchumgebung konstanten Mittelwert sowie konstante Standardabweichung haben und dass die Wertedifferenz zweier Punkte nur von ihrer relativen Lage, nicht aber von Ort und Richtung abhängig sind. Die Kovarianzfunktion C(h) existiert für jedes Paar von Zufallsvariablen und ist nur von ihrer Distanz h abhängig.

Intrinsische Hypothese: Für alle Abstandsvektoren weist das Inkrement [(Z(x) – Z(x+h)] eine endliche Varianz unabhängig vom Ort x auf. Somit besteht keine absolute Abhängig-keit mehr, der Erwartungswert ist also nur noch von der relativen Lage abhängig.

Quelle: S. Peters (2008) Diplomarbeit TU MünchenGI_AnalyseStatistik 41

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Empirisches versus theoretisches Variogramm

Variogramm bestimmt Einfluss des einzelnen Punktes auf die Zufallsvariable (h)=1/(2n) (z(xi) - z(xi+h))²

Analogie: Kovarianzfunktion

Quelle: S. Peters (2008) Diplomarbeit TU München

GI_AnalyseStatistik 42

Variogramm versus Kovarianz

GI_AnalyseStatistik © 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill 43

σ2 (h)

C(h) h

Quelle: Armstrong, M. (1998): Basic Linear Geostatistics. Springer

Varianz-Kovarianz-Gesetzmäßigkeit Varianz C(0) = ² Symmetrie C(h) = C(-h) Grenzwert |C(h)| <= C(0)

Beziehung Variogramm – Kovarianz(h) = C(0) - C(h)

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Geostatistik: Variogramm/Semivariogramm

Schwellenwert (sill) repräsentiert die Gesamtvarianz der Daten. Reichweite (Range) gibt Aufschluss darüber, bis zu welcher Distanz ein räumlicher

Zusammenhang (Autokorrelation) zwischen den einzelnen Datenwerten besteht. In diesem Bereich steigt demnach die Semivarianz mit Zunahme des zugrunde liegenden Abstandes.

Distance

(h)

Range

Sill

Nugget-effect

parti

al S

ill

Distance

(h)

Range

Sill

Nugget-effect

parti

al S

ill

c

c a

h

g(h)

0

1

a = Reichweitec0= Grundvarianz (Rauschen)c1= Maximalwert

Quelle: S. Peters (2008) Diplomarbeit TU MünchenGI_AnalyseStatistik 44

Geostatistik: Variogramm-Schätzfunktionen

Lineare Regression:

Gaußsches Modell:

Exponentielles Model

Powerfunktion:

Sphärisches Modell:

GI_AnalyseStatistik © 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill 45

Quelle: S. Peters (2008) Diplomarbeit TU München, Armstrong, M. (1998): Basic Linear Geostatistics. Springer

0

20 1

0 1

30 1

0 1

1 exp /

1 exp /

0 2

3 / 2 0.5 / 0

a

h c b h

h c c h a

h c c h a

h C h mit

h c c h a h a für h a

h c c für h a

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Geostatistik: Experimentelles Variogramm II

Beispiel: Variogrammschätzung mittels linearer Regression

200

100

(h)

00 10 20 30 40 50 h

(h)=13,16+4,15h

GI_AnalyseStatistik 46

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Kriging

„Kriging“-Schätzung ist ein lineares Interpolationsverfahren mit gewichteter Mittelwertbildung. (“BLUE-Schätzung“ best linear unbiased estimator).

Verfahren: Ordinary Kriging, falls alle Voraussetzungen zutreffen Universal Kriging, bei gleichzeitiger Berücksichtigung eines Trends

Co-Kriging: berücksichtigt Korrelation einer weiteren Variable Indikator-Kriging Wahrscheinlichkeits-Kriging u.v.a.

Quelle: S. Peters (2008) Diplomarbeit TU MünchenGI_AnalyseStatistik 47

Kriging –Theorie

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Quelle: Armstrong, M. (1998): Basic Linear Geostatistics. SpringerGI_AnalyseStatistik 48

Folgendes Problem: Wir haben N Datenwerte z(x1), … z(xN) zur Verfügung und wollen eine lineare Funktion der Variablen Z(x) schätzen. Zum Beispiel wollen wir den Wert an einer speziellen Stelle Z(x0) schätzen. Allgemein können wir dies als Integral über einer Fläche schreiben.

Das Volumen V kann die gesamte Oberfläche oder einen einzelnen Punkt umfassen. Um nun Z (V) zu schätzen nehmen wir das gewichtete Mittel der Daten als geeignet an:

wobei i die Gewichtsfaktoren sind. Das hochgestellte Sternchen bei Z besagt, dass wir den geschätzten Wert anstelle des unbekannten Erwartungswertes verwenden. Das Problem ist nun die Gewichtsfaktoren auf dem besten Weg zu wählen. Hier nutzen wir das geostatistische Modell. Wir betrachten die regionalisierteVariable:

Die Gewichte werden so gewählt, dass der Schätzer folgende Eigenschaften besitzt:

1. unbiased (unverzerrt) und 2. minimale Varianz: Diese Varianz wird dann die Kriging-Varianz bezeichnet.

vv vz 1 dxxz )( 1,7

v i iz z x 2,7

v i iz z x 3,7

0v vE z z min.v vVar z z

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Geostatistik: Kriging I

Kriging beschreibt einen exakten Interpolator, in den die einzelnen Stützpunkte mit einem Gewicht abgeleitet aus dem Variogramm über den Abstand eingehen.

Beispiel: Gegeben seien 5 Punkte in der Ebene mit den Messwerten (3,4,2,4,6) und den Abständen untereinander und zum zu interpolierenden Punkt 0.

1 2 3 4 5 01 0.0 5.0 9.8 5.0 3.2 4.32 5.0 0.0 6.3 3.6 4.4 2.93 9.8 6.3 0.0 5.0 7.2 5.54 5.0 3.6 5.0 0.0 2.3 1.05 3.2 4.4 7.2 2.3 0.0 2.0

Als Variogrammfunktion sei ein sphärisches Modell mit c0=2.5, c1=7.5 und a=10.0 vorab bestimmt.

+3 (h=2)

4 (h=4)5 (h=6)

2 (h=4)

0 (h=?)

1 (h=3)

GI_AnalyseStatistik 49

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Geostatistik: Kriging II

Zu lösendes Gleichungssystem: A b =

1 2 3 4 5 1 2.500 7.656 9.996 7.656 5.977 1.000 7.039 0.0189 2 ... 2.500 8.650 6.375 7.131 1.000 5.671 0.17623 ... ... 2.500 7.656 9.200 1.000 b = 8.064 = -0.01094 ... ... ... 2.500 5.401 1.000 3.621 0.62125 ... A ... ... 2.500 1.000 4.720 0.1945

... ... ... ... .... 0.000 1.000 -0.1676

Interpolation des Schätzwerts des gesuchten Punkts 0

z(x0) = i z(xi) = 0.0189*3+0.1762*4-0.0109*2+0.6212*4+0.1945*6 = 4.392

Kriging liefert für jeden beliebigen Punkt im Untersuchungsgebiet nicht nur einen Schätzwert, sondern auch einen Schätzfehler, abgeleitet von der Varianz

² = bi + h = 0. 0189*7.039 + 0.1762*5.671 - 0.0109*8.064 + 0.6212*3.621 + 0.1945*4.720 - 0.1676 = 4.044

h

-1 h

co=2.5

GI_AnalyseStatistik 50

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Kriging mit linearem Variogrammverlauf

GI_AnalyseStatistik 51

a) b)a) b)

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Spezielle Effekte

Eine Drift deutet auf einen Trend in den Daten hin, der Erwartungswert hängt somit von der geographischen Lage ab. Die räumliche Korrelation nimmt mit zunehmender Entfernung linear ab und erfährt keine Sättigung, ein Schwellenwert wird nicht erreicht (lineare Variogrammfunktion).

Der Hole-Effekt im theoretischen Variogramm tritt dann auf, wenn mit steigendem Abstand, nach Erreichen eines Maximums der Varianz, diese danach langsam abfällt und anschließend wiederum steigt. Dies deutet darauf hin, dass Bereiche mit sehr hohen Werten und Bereiche mit sehr niedrigen Werten nebeneinander liegen. Die Daten variieren dabei meist unterschiedlich in horizontaler und vertikaler Richtung.

Quelle: S. Peters (2008) Diplomarbeit TU MünchenGI_AnalyseStatistik 52

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Qualität der Interpolationsmethoden im

Vergleich

Fläche: ca. 63haHöhendifferenz: 60mErfasst mittels: DGNSS – 850 PunkteMesszeit: ca. 14 Stunden

GI_AnalyseStatistik 54

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Qualitätsvergleich: Rechenzeit

1

:

5

:

20

GI_AnalyseStatistik 55

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Qualitätsvergleich: Höhenliniendigitalisierung

versus DGPS

Mittlere Gelände-neigung: 7.2°

Standard abweichungGemessen:sG = 1.88mErlaubt ZIR10: sG = 2.10m

GI_AnalyseStatistik 56

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Qualitätsvergleich: Standardabweichung (m)

basiert auf 80% der Punkte, 20% true error points

0.33 1.49 3.17

0.22 0.69 1.81

0.29 0.77 1.87

1.49 3.17

0.69 1.81

0.77 1.87

GI_AnalyseStatistik 57

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Kreuzvalidierung

Die Kreuzvalidierung (engl. cross validation) ist eine Bewertungsmethode, bei der von n-Beobachtungen eine nach der anderen ausgesondert wird, wobei mit den übrig bleibenden (n-1)-Beobachtungen eine Schätzung an der ausgesonderten Stelle vorgenommen wird.

Die Differenz von beobachteten und geschätzten Wert, also der Schätzfehler (Residuen), wird für alle Stützstellen berechnet. Diese werden dann summiert und gemittelt. Man erhält den Mittelwert der Residuen, den mittleren Schätzfehler (MSF, engl. mean error).

Je näher dieser mittlere Schätzfehler an Null liegt, desto besser die Interpolation. Ist er kleiner als Null, so liegt eine Unterschätzung vor. Ist der Schätzfehler größer als Null so handelt es sich um eine Überschätzung (ISAAKS & SRIVASTAVA 1989).

n

iii ZZ

nerrormean

1

ˆ1

Quelle: S. Peters (2008) Diplomarbeit TU MünchenGI_AnalyseStatistik 58

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Qualitätsmaße

Der mittlere quadrierte Schätzfehler (MQS) (engl. mean squared prediction errorMSPE), ist ein weiterer, hilfreicher statistischer Kennwert für den Vergleich verschiedener Schätzungen.

Häufig verwendet wird die Wurzel des mittleren quadrierten Schätzfehlers, abgekürzt RMSE (root mean square error)

n

iii ZZ

nMSPE

1

2ˆ1

n

iii ZZ

nRMSE

1

2ˆ1

Quelle: S. Peters (2008) Diplomarbeit TU MünchenGI_AnalyseStatistik 59

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Scatterplot

Auf Grundlage der Kreuzvalidierung lassen sich beobachtete Werte (x-Achse) und geschätzte Werte (y-Achse) der Stützpunkte mittels Korrelationsdiagramm, auch Streuungsdiagramm genannt, darstellen (engl. scatter-plots). Die Schätzung ist umso besser, desto näher die Punkte an der gestrichelten 45°-Linie liegen.

12.0

12.2

12.4

12.6

12.8

13.0

13.2

13.4

13.6

13.8

14.0

12.0 12.2 12.4 12.6 12.8 13.0 13.2 13.4 13.6 13.8 14.0

measured value

pred

icte

d va

lue

Quelle: S. Peters (2008) Diplomarbeit TU MünchenGI_AnalyseStatistik 60

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Vergleich der Interpolationen

IDW SPLINE KRIGING

Voraussetzung keine kleine Variabilität in den Daten Autokorrelation

etwa normalverteilt Stationariät mind. etwa 30 Stützpunkte

Merkmale der Interpolation deterministisch exakt power value: max 2

deterministisch exakt perfekt durch die Stützpunkte verlaufende Oberfläche

geostatistisches Verfahren exakt

Anwendung Daten, deren Verteilung stark mit der Distanz der Raumpunkte korreliert

DGM Daten mit sich nur leicht ändernden Werten und ohne Sprünge

gute Ergebnisse auch bei spärlich verteilten Stützpunkten, solange Variogramm gut modellierbar

Quelle: S. Peters (2008) Diplomarbeit TU MünchenGI_AnalyseStatistik 61

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Vergleich der Interpolationen

IDW SPLINE KRIGINGVorteile einfaches mathematisches Modell schnelle Berechnung großer Datensätze

ästhetisch anschauliche resultierende Oberfläche Schätzungen auch außerhalb des Stützpunkte-Datenwerte-Intervalles möglich

Einbeziehung der Datencharakteristik Schätzfehler (Kriging-Varianz) für jede geschätzte Stelle Einsatz zur Optimierung der Stützpunktanordnung flexibel, viele veränderbare Parameter

Nachteile räumliche Korrelationen werden nicht berücksichtigt Schätzfehler nur für Stützstellen Fehlen richtungsspezifischer Informationen

starke Glättung Ordinary Kriging lässt Maxima verschwinden

„bull eyes“ optisch zerklüftet bei kleiner Power

Überschätzungen

Quelle: S. Peters (2008) Diplomarbeit TU MünchenGI_AnalyseStatistik 62

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Beispiel: Ertragswerte im Weinanbau

Quelle: S. Peters (2008) Diplomarbeit TU MünchenGI_AnalyseStatistik 63

© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Entscheidungshilfe zu Interpolationsverfahren

DATENSATZzuvor auf OUTLIER überprü

Autokorrelation ? Normalverteilung ? Stationarität 2.Ordnung bzw.IntrinisischeHypothese erf

JA NEIN NEIN

lognormal?

nicht normalverteilt

bimodal/multimodal

getrennte Datensätze bilden, getrennte Interpolationen

annähernd

TRANSFORMATION

Deterministisches Verfahren

(IDW, Spline)

JA NEINJA

leichter TREND

starker TREND

DETRENDINGmitOK

GEOSTATISTIKOrdinaryKriging

iterative Entscheidung mittels RMSE

GEOSTATISTIK Universal Kriging

KRIGING

“zurück zum Start“

DATENSATZzuvor auf Ausreißer überprüfen,

ggf. eliminieren

Autokorrelation? Normalverteilung? Stationarität 2.Ordnung bzw.Intrinsische Hypothese erfüllt

JA NEIN NEIN

lognormal?

nicht normalverteilt

bimodal/multimodal

getrennte Datensätzebilden, getrennte Interpolationen

annäherndnormalverteilt

TRANSFOR-MATION

Deterministisches Verfahren

(IDW, Spline)

JA NEINJA

leichter TREND

starker TREND

DETRENDINGmit OK

GEOSTATISTIK

Ordinary Kriging

iterative Entscheidung mittels RMSE

GEOSTATISTIK

Universal Kriging

KRIGING

“zurück zum Start

Quelle: S. Peters (2008) Diplomarbeit TU MünchenGI_AnalyseStatistik 64

Selbststudium

GI_AnalyseStatistik © 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill 65

Literatur-hinweis

GI_AnalyseStatistik © 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill

Bücher: Bill (2016): Kapitel 7.4 de Lange (2013): Kapitel 9.6 Bartelme (2005): Kapitel 5

online: http://www.spatialanalysisonline.com/

66