Geographisch gewichtete Regression (GWR)c5hema/gis_ws04/ha/magdowski.pdf · Diese Methode wird in...

16
Friedrich-Schiller-Universität Jena Institut für Geographie Hps: Analyse und Modellierung räumlicher Daten Leitung: Dr. Martin Herold Wintersemester 2004/05 Geographisch gewichtete Regression (GWR) Vorgelegt von: Anita Magdowski Dipl. Geographie Semester 7 e-mail: [email protected]

Transcript of Geographisch gewichtete Regression (GWR)c5hema/gis_ws04/ha/magdowski.pdf · Diese Methode wird in...

Page 1: Geographisch gewichtete Regression (GWR)c5hema/gis_ws04/ha/magdowski.pdf · Diese Methode wird in dem Falle eingesetzt, wenn die Begrenzung weitestgehend un- bekannt ist oder keine

Friedrich-Schiller-Universität Jena Institut für Geographie Hps: Analyse und Modellierung räumlicher Daten Leitung: Dr. Martin Herold Wintersemester 2004/05

Geographisch gewichtete Regression (GWR)

Vorgelegt von: Anita Magdowski Dipl. Geographie

Semester 7 e-mail: [email protected]

Page 2: Geographisch gewichtete Regression (GWR)c5hema/gis_ws04/ha/magdowski.pdf · Diese Methode wird in dem Falle eingesetzt, wenn die Begrenzung weitestgehend un- bekannt ist oder keine

2

Inhalt

1 Einleitung 3

2 Die statistischen Grundlagen 3

2.1 Das lineare Regressionsmodell 3

2.2 Das multivariate Regressionsmodell 5

3 Die geographisch gewichtete Regression (GWR) 7

3.1 Die Methoden der Begrenzung (Bandwidth) 7

3.1.1 Begrenzungsfestlegung durch den Nutzer 7

3.1.2 Begrenzung über die crossvalidation function 8

3.1.3 Begrenzung mit dem Akaike Information Criterion (AIC) 8

3.2 Der Local coefficient of determination 9

4 Das hedonische Hauspreismodell 9

5 Weiteres Beispiel für die Anwendung der GWR 14

6 Zusammenfassung 15

Literatur 16

Page 3: Geographisch gewichtete Regression (GWR)c5hema/gis_ws04/ha/magdowski.pdf · Diese Methode wird in dem Falle eingesetzt, wenn die Begrenzung weitestgehend un- bekannt ist oder keine

3

1 Einleitung In der vorliegenden Hausarbeit soll das Thema der geographisch gewichteten Regressi-on behandelt werden. Um einen vollständigen Überblick zu dieser Aufgabenstellung geben zu können, werden im ersten Abschnitt der Hausarbeit die statischen Grundlagen der Regressionsmodelle und deren Interpretation näher erläutert. Im speziellen wird zu einen auf das lineare und zum anderen auf das multivariate (multiple) Regressionsmo-dell eingegangen. Nach diesen allgemeinen Ausführungen soll dann der Bezug zur geo-graphisch gewichteten Regression mit den globalen Regressionsmodellen erfolgen. In-nerhalb dieser Problematik werden auch die Probleme der globalen Regressionsmodelle im Sinne der lokalen Begrenzung dargestellt. Des Weiteren soll in diesem Abschnitt das hedonische Hauspreismodell, als Beispiel eines globalen Regressionsmodells erläutert werden. Im letzten Abschnitt der Hausarbeit folgen Anwendungsbeispiele für die geo-graphisch gewichteten Regressionsmodelle.

2 Die statistischen Grundlagen Als Regression kann die Analyse bezeichnet werden, die sich zum einen mit bivariaten und zum anderen mit multivariaten Verteilungen beschäftigt. Dabei wird die Frage nach dem Zusammenhang zwischen zwei oder mehreren Zufallsvariablen behandelt. Bei der Bearbeitung des Zusammenhanges wird zwischen der Korrelationsanalyse und der Regressionsanalyse unterschieden. Die Korrelationsanalyse ist dabei für die ermitt-lung der Stärke des Zusammenhanges zuständig. Hingegen wird mit der Regressions-analyse die Form des Zusammenhanges ermittelt. Für die verschiedenen Verteilungen ergeben sich nun unterschiedliche Regressionsmo-delle. Dazu zählen zu den bivariaten Verteilungen die einfachen linearen Regressions-modelle und zu den multivariaten Verteilungen die demzufolge multivariaten Regressi-onsmodelle. Diese Modelle sollen in den folgenden Abschnitten behandelt werden (BAHRENBERG ET AL. 1999:135).

2.1 Das lineare Regressionsmodell Bei einer linearen Einfachregression wird untersucht wie eine Variable y von n Variab-len x abhängt. Dabei muss zwischen den unabhängigen Ausgangsvariablen x und den abhängigen Zielvariablen y getrennt werden. Die Regression von Y nach X wird in der Statistik als Funktion von Y = f (x) bezeichnet. Die zu vergleichenden Variablen werden in einem Rechtwinkligen Koordinatensystem als Wertepaare eingetragen, das daraus entstandene Diagramm wird als Streuungsdia-

Page 4: Geographisch gewichtete Regression (GWR)c5hema/gis_ws04/ha/magdowski.pdf · Diese Methode wird in dem Falle eingesetzt, wenn die Begrenzung weitestgehend un- bekannt ist oder keine

4

gramm bezeichnet. In diesem Diagramm ergibt sich eine Punktwolke der Wertepaare durch die eine Gerade gelegt werden kann über die die Tendenz der Punktwolke ver-deutlicht wird. Die Gerade stellt die einfache Regression mit der Gleichung Y = a + bX (BAHRENBERG ET AL. 1999:137) dar. Diese als mittlere Gerade bezeichnete Funktion gibt an in wie weit die Variable Y zum Beispiel ansteigt, wenn die Variable X ebenfalls ansteigt. Über die erläuterte Regressionsgleichung kann demzufolge für einen beliebigen Wert der Ausgangsvariablen X berechnet werden, welchen Wert die Zielvariable für diesen Wert annimmt. Die Lage der berechneten Regressionsgerade im Streuungsdiagramm ist abhängig von der Verteilung der einzelnen Punkte und damit von dargestellten Wertepaaren. Am besten wird die Tendenz der Punktwolke von der Regressionsgeraden verdeutlicht wenn die Summe der Entfernung aller Punkte von dieser Geraden am geringsten ist (BAHREN-

BERG ET AL. 1999:137-144). Um die Stärke dieses Zusammenhanges beurteilen zu können wird durch die zuvor be-reits erwähnte Korrelationsanalyse ein Korrelationskoeffizient ermittelt. Dieser stellt einen Wert zwischen -1 und +1 dar. Der Zusammenhang zwischen den Variablen ist dann umso höher, je näher der Korrelationskoeffizient an 1 liegt. Das bedeutet bei ei-nem Korrelationskoeffizienten von 1 ist ein Zusammenhang von Hundert Prozent nach-gewiesen. Der Korrelationskoeffizient wird in der Statistik als R² bezeichnet (BAHREN-

BERG ET AL. 1999:147-151). Des Weiteren soll bei der Betrachtung des linearen Regressionsmodells auf die so ge-nannten Residuen einer Regression eingegangen werden. Mit dem Begriff Residuen werden die Differenzen bezeichnet, die zwischen den tatsächlichen Werten der Stich-probe und den geschätzten Werten der Regressionsgeraden liegen. Sie sind von beson-derer Bedeutung bei der Schätzung der Regressionsgeraden sowie bei der Darstellung der theoretischen Voraussetzung einer Regressionsanalyse. Zur Verdeutlichung eines linearen Regressionsmodells beziehungsweise einer Regressionsgeraden mit Berück-sichtigung auf die Residuen soll die Abbildung 1 gezeigt werden. Die Residuen können je nach der Lage der Punkte von der Regressionsgeraden einen positiven oder negativen Charakter aufzeigen. Das heißt, dass im Falle von positiven Residuen die Variablen in ihrem Zusammenhang, bei Bezug auf die Regressionsgera-den, überrepräsentiert und im Falle von negativen Residuen unterrepräsentiert sind. Über eine Residuenanalyse kann herausgefunden werden, ob weitere Ausgangsvariab-len gefunden werden müssen um die Variation der Zielvariablen in vollem Maße klären zu können. Durch die Findung von zusätzlichen Variablen kann eine Verbesserung be-ziehungsweise Verfeinerung des Regressionsmodells erreicht werden (BAHRENBERG ET

AL. 1999:169-177).

Page 5: Geographisch gewichtete Regression (GWR)c5hema/gis_ws04/ha/magdowski.pdf · Diese Methode wird in dem Falle eingesetzt, wenn die Begrenzung weitestgehend un- bekannt ist oder keine

5

Werden in Regressionsmodellen noch zusätzliche Variablen dargestellt, werden diese als multivariate Regressionsmodelle bezeichnet, die im folgenden Unterpunkt der Ar-beit näher erläutert werden.

Abbildung 1: Lineares Regressionsmodell mit Darstellung der Residuen (Quelle: BAHRENBERG ET AL. 1999:171)

2.2 Das multivariate Regressionsmodell Auch bei der multivariaten Regressionsanalyse wird von einer Zielvariablen y ausge-gangen. Sie unterscheidet sich aber von der bivariaten Regressionsanalyse darin, dass sie mehrere unabhängige Variablen Xi, Regressionkoeffizienten ßi, eine Regressions-konstante a und einen Zufallsfehler e enthält. Die Gleichung für ein multivariates Reg-ressionsmodell lautet dann wie folgt: Y = a + ß1X1 + ß2X2 + e (BAHRENBERG ET AL. 1992 :19) Die Zufallsvariable e in der Regressionsgleichung steht dabei für einen Messfehler oder einer unabhängigen Variable, die nicht mit berücksichtigt werden kann. Als ein Ziel des bivariaten Regressionsmodells kann bezeichnet werden, dass verschie-dene Variablen Xi so auszuwählen sind dass sich die Variation der Y Werte best mög-lichst auf die Variationen der Variablen Xi zurückzuführen lassen (BAHRENBERG ET AL. 1992:19f.).

Page 6: Geographisch gewichtete Regression (GWR)c5hema/gis_ws04/ha/magdowski.pdf · Diese Methode wird in dem Falle eingesetzt, wenn die Begrenzung weitestgehend un- bekannt ist oder keine

6

Zur besseren Veranschaulichung soll in der Abbildung 2 ein multivariates Regressi-onsmodell gezeigt werden.

Abbildung 2: Darstellung eines multivariaten Regressionsmodells (Quelle: BURT & BARBER 1996:498)

Die Aussagen über die Zusammenhänge zwischen den verschiedenen Variablen Xi und der Zielvariablen Y werden ebenfalls wie bei der bivariaten Regressionsanalyse mit dem Regressionskoeffizienten berechnet. Durch diesen Koeffizienten können dann die einzelnen Xi Variablen darunter verglichen werden bei welchem der Zusammenhang mit der Zielvariablen y am stärksten ausgeprägt ist. Der Regressionskoeffizient einer multivariaten Regressionsanalyse nimmt im Gegensatz zu dem einer bivariaten Regres-sionsanalyse nur einen Wert zwischen 0 und 1 an. Der Regressionskoeffizient wird bei Einbeziehung von zwei Xi Variablen erst dann beeinflusst wenn der Zusammenhang zwischen diesen beiden groß genug ist. Und so der Wert des Zusammenhangs zwischen der Zielvariablen Y und den Variablen Xi posi-tiv erhöht wird (BAHRENBERG ET AL. 1992:23-27, 41).

3 Die geographisch gewichtete Regression (GWR) Für die Gleichung des globalen Regressionsmodells wird als Grundlage ebenfalls die des multivariaten Regressionsmodells verwendet. Ein Unterschied ergibt sich nur durch einen zusätzlichen Faktor g. Dadurch ergibt sich die Aufstellung folgender Gleichung.

Page 7: Geographisch gewichtete Regression (GWR)c5hema/gis_ws04/ha/magdowski.pdf · Diese Methode wird in dem Falle eingesetzt, wenn die Begrenzung weitestgehend un- bekannt ist oder keine

7

Y(g) = ß0(g) + ß1(g)x1 + ß2(g)x2 + e (HEROLD 2004:128) Die Zielvariable der Funktion ist wie in der Ausgangsgleichung Y(g). Die verschiede-nen unabhängigen Variablen werden durch X1 und X2 sowie die Regressionkoeffizien-ten durch ß1 und ß2 charakterisiert. Für die Regressionskonstante wird im Gegensatz zur Ausgangsgleichung ß0 eingesetzt. Des Weiteren enthält die Gleichung auch wieder die Zufallsvariable e. Der Faktor g reflektiert den räumlich gewichteten Teil, der die Grundlage von euklidi-schen Distanzen zwischen den ausgewählten Bandbreiten verdeutlicht. Das globale Regressionsmodell zeigt Ähnlichkeiten mit den normalen Regressionstechniken obwohl sie mit Raumattributen gewichtet sind (HEROLD 2004:128). Zu verstehen ist mit der räumlich gewichteten Regression ein ebenso aufgestelltes Reg-ressionsmodell wie das eines multivariaten Regressionsmodells, nur das hierbei noch eine räumliche Begrenzung in das Modell eingearbeitet wird, mit dem eine gewisse Gewichtung auf einzelne Bereiche erfolgen soll. Inwieweit solche Begrenzungen ange-wendet und was für unterschiedliche Begrenzungsmöglichkeiten es gibt soll im nächs-ten Unterpunkt der Arbeit verdeutlicht werden.

3.1 Die Methoden der Begrenzung (Bandwidth) In diesem Punkt soll auf die Problematik der räumlichen Begrenzung des räumlich ge-wichteten Regressionsmodells eingegangen werden. Die Wahl der Begrenzung hat ei-nen großen Einfluss auf das Resultat der geographisch gewichteten Regression. Es ist wichtig die Begrenzung als einen gleichmäßigen Parameter zu betrachten, denn mit ei-ner größeren Begrenzung ergibt sich eine bessere Gleichmäßigkeit. Ein Übergleichmä-ßiges Modell wird Parameter produzieren die ähnlich der der Raumstudien sind und ein Modell das untergleichmäßig ist wird Ergebnisparameter erzielen, die eine hohe lokale Variation aufzeigen, so dass es schwierig ist zu entscheiden welche von allen zu dem Muster gehören. Die beste Begrenzung wird erreicht, wenn ein guter Durchschnitt zwi-schen diesen beiden Extremen erreicht wird. In der Version 2.0 des geographisch ge-wichteten Regressionsmodells werden drei Methoden für die Auswahl der Begrenzung beschrieben. Dazu zählen die Festlegung einer Begrenzung durch den Nutzer, die Aus-wahl der Begrenzung als die minimale Beschränkung einer crossvalidation function und die Auswahl der Begrenzung über die minimale Beschränkung des Akaike information Criterion (AIC) (CHARLTON ET AL./ http://www. geog.ubc.ca).

3.1.1 Begrenzungsfestlegung durch den Nutzer

Die Festlegung der Begrenzung durch den Nutzer des geographisch gewichteten Reg-ressionsmodells ist die am einfachsten durchzuführende Methode. Dabei kann die Grö-ße der Begrenzung spezifisch und direkt erfolgen. Für eine festgelegte Wahl sollte die

Page 8: Geographisch gewichtete Regression (GWR)c5hema/gis_ws04/ha/magdowski.pdf · Diese Methode wird in dem Falle eingesetzt, wenn die Begrenzung weitestgehend un- bekannt ist oder keine

8

Entfernung der Begrenzung die gleiche Einheit wie die Variablen der Lage haben. Sind zum Beispiel die Koordinaten auf Meter spezifiziert so müssen die Begrenzungen eben-falls in Meter ausgeführt werden. Im Programm des GWR 2.0 ist für die Begrenzung ein Assistent vorhanden durch den ein passender Wert diese gefunden werden kann. Weiterhin bietet der Assistent eine gute theoretische Grundlage für das bereitstellen von speziellen Grundlagen (CHARLTON ET AL./ http://www. geog.ubc.ca).

3.1.2 Begrenzung über die crossvalidation function

Diese Methode wird in dem Falle eingesetzt, wenn die Begrenzung weitestgehend un-bekannt ist oder keine vorrangigen Gründe vorhanden sind um eine Begrenzung bereit zu stellen. Bei dieser Methode wählt dann die Software des Programms eine passende Begrenzung aus. In der Software sind dafür zwei Methoden vorhanden um dieses umzu-setzen. Die Crossvalidation ist dabei eine Technik bei welcher die optimale Begrenzung die sich aus dem minimalsten der folgenden Gleichung ergibt.

(CHARLTON ET AL./ http://www. geog.ubc.ca) In der Gleichung steht n für die Anzahl der Datenpunkte und die Voraussage für die gewichteten ith Datenpunkte die zu null festgelegt werden. Die Berechnung des CV ist aber nur möglich wenn die Regressionspunkte die gleiche Lage aufzeigen wie die Da-tenpunkte. Mit der Benutzung der Golden Section such Technik kann die Minimierung herausgefunden werden und die beste Begrenzung wird im Ausgabeverzeichnis wieder-gegeben. Der Nutzer hat dabei die Möglichkeit sich die Auflistung über den Suchpro-zess anzeigen zu lassen (CHARLTON ET AL./ http://www. geog.ubc.ca).

3.1.3 Begrenzung mit dem Akaike Information Criterion (AIC)

Die Akaike Information Criterion ist eine weitere Strategie zur Ermittlung der Begren-zung. Mit dem Modell AIC kann die Begrenzung noch genauer als mit den verschiede-nen anderen Modellen ermittelt werden. Der AIC wird im GWR Programm mit folgen-der Gleichung berechnet.

(CHARLTON ET

AL.)

In der Gleichung stellt tr(S) die Aufzeichnung der „hat matrix“ dar. Als n wird

die Anzahl der Betrachtungen bezeichnet. Das wieder durchgeführte Verfahren

der Golden Section Methode und die weiteren Zwischenschritte des Prozesses

werden im Ausgabeverzeichnis des GWR 2.0 Pogramms aufgelistet (CHARLTON

ET AL./ http://www. geog.ubc.ca).

Page 9: Geographisch gewichtete Regression (GWR)c5hema/gis_ws04/ha/magdowski.pdf · Diese Methode wird in dem Falle eingesetzt, wenn die Begrenzung weitestgehend un- bekannt ist oder keine

9

3.2 Der Local coefficient of determination In den globalen Regressionsmodellen stellt dieser Koeffizient ein Maß für den Zusam-menhang der Daten dar, wie er auch bei der multivariaten Regressionsanalyse ermittelt wird. Die Berechnung des Koeffizienten gibt Auskunft darüber wie gut das lokale Mo-dell in der nähe des Regressionpunktes mit der Aufnahme der Daten nachgebildet wur-de. Die Gleichung für die Ermittlung des lokalen Regressionskoeffizienten ri

2 lautet wie folgt. ri

2 = (TSSW – RSSW) / TSSW (CHARLTON ET AL./ http://www. geog.ubc.ca) Der Term TSSW ist dabei die geographisch gewichtete Gesamtsumme der Quadrate und wird definiert als TSSW = åj wij (yj - )² (CHARLTON ET AL./ http://www. geog.ubc.ca) und der weitere Term RSSW ist die geographisch gewichtete restliche Summe der Quad-rate, die durch folgende Gleichung beschrieben wird. RSSW = åj wij (yj - j )² (CHARLTON ET AL./ http://www. geog.ubc.ca) In den aufgeführten Gleichungen steht wij für die Wichtung der Datenpunkte j und der Regressionspunkte i (CHARLTON ET AL. / http://www. geog.ubc.ca ). Der ermittelte Koeffizient nimmt Werte von 0 bis 1 an. Daraus ergibt sich dann die Be-wertung über den Zusammenhang der Variablen. So ergeben sich im Wertebereich von 0 bis 0,4 nur sehr geringe Zusammenhänge, die nicht in so großem Maße berücksichtigt werden müssten wie zum Beispiel Werte im Bereich von 0,7 bis 0,9. Die Ergebniswerte können auch als Prozentwerte angegeben werden. So ergibt sich bei einem Wert von 0,6 dementsprechend ein Zusammenhang zwischen den Variablen in Höhe von 60% (HE-

ROLD 2004:247-264).

4 Das hedonische Hauspreismodell Als Beispiel einer Anwendung der geographisch gewichteten Regression gilt das hedo-nische Hauspreismodell. In diesem Modell wird der Zusammenhang der Beziehung zwischen drei Wachstumsfaktoren als unabhängige Variablen und einer räumlich met-risch abhängigen Variable ermittelt. Die geographisch gewichtete Regression soll zei-gen wie gut die räumlich urbanen Strukturen durch die räumliche Verteilung von urba-nen Wachstumsfunktionen erklärt werden können.

Page 10: Geographisch gewichtete Regression (GWR)c5hema/gis_ws04/ha/magdowski.pdf · Diese Methode wird in dem Falle eingesetzt, wenn die Begrenzung weitestgehend un- bekannt ist oder keine

10

Diese Untersuchung nimmt an das die drei Wachstumsfaktoren die historisch intra-urbane Entwicklung beeinflussen und erzwingen. Die Anforderung an das geographisch gewichtete Regressionsmodell der Untersuchung bestand im wesentlichen darunter ein-zuschätzen wie die Beziehung der Wachstumsfaktoren zu der lokalen intra-urbane Ebe-ne besser zu ermitteln sind als mit einem globalen Modell der Region an der Südküste Santa Barbaras (HEROLD 2004:128f.). Mit der Methode der geographisch gewichteten Regression sollen in dieser Studie die Beziehung zwischen den urbanen Wachstumsfaktoren und den resultierenden urbanen räumlichen Strukturen aufgezeigt werden. Dabei ist es speziell das Ziel die Beziehungen zwischen den derzeitig vorhandenen Landbedeckungsmustern und die räumliche Varia-tion der urbanen Wachstumsfaktoren aufzuzeigen. Die drei Wachstumsfaktoren die in dieser Studie untersucht werden sind die Hangneigung, die Straßen bzw. die Entfernung zu den Straßen und die urbanen Kerne bzw. deren Fläche. Auf den Karten werden die drei Zentren Santa Barbara, Goleta und Carpintaria gezeigt. Die Tabelle 1 stellt einige Regressionsergebnisse der Untersuchung dar, auf die in den folgenden Ausführungen näher eingegangen werden soll. Ein wichtiger Faktor in der Tabelle ist der so genannte local sample size, der die Begrenzung für das angewendete GWR beschreibt. Die Werte der Begrenzungen wurden hierbei mit dem Akaike Infor-mation Criterion ermittelt. Die Variation dieses Faktors ist bei den jeweiligen metri-schen Variablen sehr hoch. Die Begrenzung repräsentiert dabei die speziellen räumli-chen Charakteristiken von der Beziehung zwischen einem metrischen- und einem Wachstumsfaktor. In dieser Studie ergaben sich Begrenzungen von 25 Punkten bis hin 340 Punkten reichten, um diese Hohe Variabilität etwas einzugrenzen wurden die Werte auf 60 oder 100 Punkte wie in Tabelle 1 ersichtlich, beschränkt. Der Wert des in der Tabelle 1 mit Global CoD bezeichneten global coefficient of deter-mination repräsentiert im Regressionsmodell den Faktor von R². Des Weiteren wird die Signifikanz von Faktoren in der Regressionsanalyse mit einem t-Wert angegeben. Der absolute t-Wert bei dem der Faktor als signifikant angesehen werden kann liegt bei ei-nem Wert von 1,96. Das heißt dass der Faktor ab diesem Wert für das Regressionsmo-dell von Bedeutung ist. Bei Werten von 0 bis 1,96 können die Faktoren aufgrund ihrer geringen Bedeutung außer Acht gelassen werden. Der t-Wert kann auch Werte unter annehmen, das bedeutet dass zwischen dem Wachstumsfaktor und der Raum metric eine negative lineare Beziehung besteht (HEROLD 2004:248f.).

Page 11: Geographisch gewichtete Regression (GWR)c5hema/gis_ws04/ha/magdowski.pdf · Diese Methode wird in dem Falle eingesetzt, wenn die Begrenzung weitestgehend un- bekannt ist oder keine

11

Tabelle 1: modifizierte Regressionsergebnisse (Quelle: HEROLD 2004:251) Aus der Tabelle 1 wird in Bezug auf den t-Wert der Hangneigung und dem Gebiet er-sichtlich, dass diese Beziehung einen Wert von unter 1,96 besitzt und demzufolge ihre Bedeutung als sehr gering einzuschätzen ist. Weiterhin soll mit der Tabelle 1 auf die zwei unterschiedlichen Regressionskoeffizien-ten die diese beinhaltet eingegangen werden. Diese zwei Regressionskoeffizienten sind zum einen der Global CoD und zum anderen der GWR CoD. Der Global CoD bewertet dabei die Regression im globalen Maßstab, wogegen der zweite Koeffizient geogra-phisch gewichtet ist und so GWR CoD bezeichnet wird. Im Beispiel der Tabelle 1 wird ersichtlich das der GWR CoD bei allen Bereichen einen höheren Wert erreicht. Das heißt lokal betrachtet ist ein stärkerer Zusammenhang nachgewiesen als in der globalen Betrachtungsweise (HEROLD 2004:251f.). Die nachfolgende Abbildung 3 zeigt ein Beispiel für die Darstellung von Regressions-ergebnissen. Damit wird die räumliche Verteilung des coefficient of determination für vier räumlich metrische Parameter verdeutlicht. Die Werte in den Legenden stellen dabei die Stärke des Zusammenhanges der unter-suchten Variablen dar. Ein Wert von 0,1 – 0,2 steht für einen sehr geringen Zusammen-hang, der vernachlässigt werden kann. Bei Werten von über 0,5 ist der Zusammenhang deutlich nachgewiesen und kann als Repräsentativ angesehen werden. Durch die Vertei-lung der Werte auf den Karten können in der Abbildung 3 die signifikanten Räume, wo der Zusammenhang stark vorhanden ist, direkt erkannt werden. In der Abbildung 3 wird deutlich, dass das generelle räumliche Muster des CoD für die vier metrischen Regressionen in den Gebieten von Santa Barbara und Goleta ziemlich ähnlich aussieht. Das heißt die Gebiete mit einer guten Vorhersagbarkeit der räumlichen Wohncharakteristik korrespondiert mit der Stadt von Santa Barbara und dem nördlichen und westlichen Teil von Goleta. Im Gegensatz dazu variiert die Vorhersagbarkeit der Stadtcharakteristik von Carpinteria in Bezug auf die verschiedenen Parameter. Eine Tendenz von einem geringeren Wert des CoD ist im westlichen Teil dieses Gebietes zu erkennen. Des Weiteren zeigen die Gebiete im Süden von Goleta und die Region zwi-schen Santa Barbara und Goleta einen geringen Wert des CoD auf, dass auf einen städ-tische Peripherie zurück zu führen ist (HEROLD 2004:253f.).

Page 12: Geographisch gewichtete Regression (GWR)c5hema/gis_ws04/ha/magdowski.pdf · Diese Methode wird in dem Falle eingesetzt, wenn die Begrenzung weitestgehend un- bekannt ist oder keine

12

Abbildung 3: Darstellung der räumlichen Verteilung der Regressionsergebnisse der drei Wachstumsfaktoren in Bezug auf die räumlich metrisch beschreibenden Wohnhausmus-

ter (Quelle: HEROLD 2004:253) Ein weiteres Beispiel für die Darstellung einer Karte mit Regressionsergebnisse soll mit der Abbildung 4 aufgezeigt werden. In dieser Abbildung werden die drei Wachstums-faktoren mit ihrer räumlichen Verteilung im gesamten Untersuchungsgebiet verdeut-licht. Dabei wird der beta Regressionsparameter betrachtet, dieser Parameter repräsen-tiert das ansteigen der Regressionslinie und ist ein Indikator für die räumliche Variabili-tät sowie ein Maß für die stärke der Beziehungen. Bei einem Wert von null oder nahe null ist dieser Parameter für das Regressionsmodell nicht von Bedeutung. Dadurch wird gezeigt in welchen Gebieten die räumliche Variabilität der speziellen Wachstumsfakto-ren bedeutender ist (HEROLD 2004:258-261).

Page 13: Geographisch gewichtete Regression (GWR)c5hema/gis_ws04/ha/magdowski.pdf · Diese Methode wird in dem Falle eingesetzt, wenn die Begrenzung weitestgehend un- bekannt ist oder keine

13

Im vergleich zu allen anderen Regionen sind für die Region Summerland, die zwischen Santa Barbara und Carpinteria liegt, die beta Parameter für die Hangneigung und die Entfernung zum städtischen Kern sehr gering und negativ. Daraus folgt das für diese Region nur der Parameter über die Entfernung zu den Highways ein guter Faktor für die Voraussage auf die Wohnungsstruktur ist. Im Gegensatz dazu spielt in den meisten Teilen von Santa Barbara und Goleta der Fak-tor der Hangneigung eine wichtigere Rolle. Die Region Carpinteria wird hingegen durch geringe beta Hangneigungsparameter repräsentiert, so dass dieser Faktor nicht signifikant für das Wachstum ist. Auf der anderen Seite sind die Parameter für die Ent-fernung zum Stadtkern und die Entfernung zu den Highways sehr wichtige Variablen für die Beschreibung der Wohnstruktur Carpinterias. In genereller Hinsicht kann Car-pinteria als ein individuelles Stadtgebiet betrachtet werden, dass im Vergleich zu den anderen Gebieten eigene Wohncharakteristiken besitzt (HEROLD 2004:258-261).

Abbildung 4: Darstellung der räumlichen Verteilung von den Beta Regressionsparame-

tern der drei Wachstumsfaktoren (Quelle: HEROLD 2004:260) Für die Regionen Goleta und Santa Barbara sind die Beta Parameter für den Faktor der Entfernung zum Stadtkern sehr variabel. Dieses Ergebnis spiegelt einen typischen urba-nen Gradienten in einem klassischen Modell der städtischen Raumstrukturen wieder. Für die Regionen Carpinteria, Süd und Ost Santa Barbara sowie Nordgoleta sind diese

Page 14: Geographisch gewichtete Regression (GWR)c5hema/gis_ws04/ha/magdowski.pdf · Diese Methode wird in dem Falle eingesetzt, wenn die Begrenzung weitestgehend un- bekannt ist oder keine

14

konzentrischen Strukturen signifikant. Am wenigsten scheinen die Wohnungsstrukturen von Nord- und Westgoleta sowie Nord Santa Barbara beeinflusst durch die Entfernung zu den Zentren. Der Parameter für die Distanz zu den Highways zeigt bei den meisten Gebieten eine gewisse Signifikanz. Obwohl in der Region südöstlich von Santa Barbara die räumliche Stadtstruktur wohl mehr über einen Parameter mit der Distanz zur Küste als der Entfernung zu den Highways beeinflusst wird (HEROLD 2004:262).

5 Weiteres Beispiel für die Anwendung der GWR Im letzten Punkt der Arbeit soll auf ein weiteres Beispiel für die Anwendung der Me-thode der geographisch gewichteten Regression kurz eingegangen werden. Das Beispiel bezieht sich auf Großbritannien wo über eine geographisch gewichtete Regression die Beziehung zwischen den jährlichen totalen Niederschlägen und der Höhe der Oberflä-che ermittelt werden sollte. Nach der Erstellung der Regressionsanalyse konnten die in Abbildung 5 verdeutlichten Ergebnisse mit Hilfe einer Karte dargestellt werden. Die Kartendarstellung spiegelt die Höhen der berechneten Regressionskoeffizienten wieder, wie sie sich über ganz Großbritannien verteilen. Diese Höhe des Regressionskoeffizien-ten wird mit der Einheit mm/m und im Intervall von 0,5 angegeben (BRUNSDON ET AL. 2001:455-462).

Abbildung 5: räumliche Verteilung der Koeffizientshöhen

(Quelle: BRUNSDON ET AL. 2001:463)

Page 15: Geographisch gewichtete Regression (GWR)c5hema/gis_ws04/ha/magdowski.pdf · Diese Methode wird in dem Falle eingesetzt, wenn die Begrenzung weitestgehend un- bekannt ist oder keine

15

Über diese Art der Darstellung der Regressionsergebnisse kann direkt ermittelt werden in welchen Regionen die wichtigsten Beziehungen zwischen den Variablen nachgewie-sen worden sind. Die höchsten Werte des Regressionskoeffizienten ergaben sich dabei in der Südwestli-chen Region von England bis zum Nordwesten von Schottland. Bei der Betrachtung von West nach Ost ist eine stetige Abnahme des Regressionskoeffizienten zu erkennen. Mit den Regressionskoeffizienten wird das Maß des Zusammenhanges zwischen den jährlichen totalen Niederschlägen und den Oberflächenhöhen angegeben. Das heißt in den westlichen Regionen und dem Norden von Großbritannien besteht der höchste Zu-sammenhang zwischen diesen beiden Variablen (BRUNSDON ET AL. 2001:455-465).

6 Zusammenfassung Mit den Ausführungen in dieser Arbeit sollte das Thema der geographisch gewichteten Regression näher verdeutlicht werden. Dabei wurde zu erst auf die statistischen Grund-lagen eingegangen. Die Grundlagen richten sich dabei nach den Berechnungen der Reg-ressionskoeffizienten zum einen von den bivariaten und zum anderen von den multiva-riaten Regressionsmodellen. Diese Regressionskoeffizienten sind ein Maß für die Stärke des Zusammenhanges zwischen zwei Variablen im bivariaten Regressionsmodell. Im Falle des multivariaten Regressionsmodells sind Berechnungen von einer Vielzahl von Variablen möglich. Die Ergebnisse der Regressionsberechnungen werden durch die Darstellung einer Regressionsgeraden verdeutlicht. Die über eine lineare Funktion be-rechnet werden kann. Nach der Betrachtung der Grundlagen wurden diese in Bezug auf die geographisch ge-wichteten Regressionsmethoden erweitert. Da für dieses Regressionsmodell ein weiterer Faktor die Regressionsgleichung vervollständigte. Mit der Methode der geographisch gewichteten Regression kann der Zusammenhang zwischen Variablen auf einen räumlichen Bezug gebracht werden. Das bedeutet dass mit den Ergebnissen der Regressionskoeffizienten Karten erstellt werden können. Durch diese Karten sind die Regionen mit einem starken Zusammenhang direkt erkennbar und auswertbar. Des Weiteren können Gebiete die nicht signifikant für eine weitere Unter-suchung sind ausgegrenzt werden. Zu Unterscheiden ist daher eine globale Regressionsanalyse von einer lokalen Regressi-onsanalyse über einen eingesetzten geographischen Wichtungsfaktor. Die Bereiche für eine Anwendung der geographisch gewichteten Regressionsmethoden sind sehr breit gefächert. Sie reichen von anthropogeographischen bis hin hydrologischen Fragestel-lungen über den Zusammenhang verschiedener Variablen.

Page 16: Geographisch gewichtete Regression (GWR)c5hema/gis_ws04/ha/magdowski.pdf · Diese Methode wird in dem Falle eingesetzt, wenn die Begrenzung weitestgehend un- bekannt ist oder keine

16

Literatur BAHRENBERG, G., GIESE, E. & J. NIPPER (19994): Statistische Methoden in der Geogra-

phie Bd. 1. Unvariate und bivariate Statistik. Leipzig. BAHRENBERG, G., GIESE, E. & J. NIPPER (19922): Statistische Methoden in der Geogra-

phie Bd. 2. Multivariate Statistik. Stuttgart. BRUNSDON, C., MCCLATCHEY, J. & D.J. UNWIN (2001): Spatial Variations in the aver-

age Rainfall-Altitude Relationship in Great Britain. An approach using Geo-graphically weighted regression. International Journal of Climatology. Newcas-tle upon Tyne, Northampton, London. 21, (455-466).

BURT, J. E. & G. M. BARBER (19962): Elementary statistic for geographers. -2nd ed.

New York. HEROLD, M. (2004): Remote Sensing and Spatial Metrics for Mapping and Modeling of

Urban Structures and Growth Dynamics. Santa Barbara. Literatur aus dem Internet CHARLTON, M., FOTHERINGHAM, S. & C. BRUNSDON: Geographically Weighted Re-

gression. Version 2.x. User´s Manual and Installation Guide. http://www. geog.ubc.ca Zugriff am 26.11.2004