Statistische Methoden I WS 2002/2003 Zur Geschichte der Statistik I. Beschreibende Statistik 1....

Post on 05-Apr-2015

105 views 0 download

Transcript of Statistische Methoden I WS 2002/2003 Zur Geschichte der Statistik I. Beschreibende Statistik 1....

Statistische Methoden IWS 2002/2003

Zur Geschichte der Statistik

I. Beschreibende Statistik

1. Grundlegende Begriffe

2. Eindimensionales Datenmaterial2.1. Der Häufigkeitsbegriff2.2. Lage- und Streuungsparameter2.3. Konzentrationsmaße (Lorenz-Kurve)

3. Mehrdimensionales Datenmaterial3.1. Korrelations- und Regressionsrechnung3.2. Indexzahlen3.3. Saisonbereinigung

II. Wahrscheinlichkeitstheorie

1. Laplacesche Wahrscheinlicheitsräume1.1. Kombinatorische Formeln1.2. Berechnung von Laplace-Wahrschein-

lichkeiten

2. Allgemeine Wahrscheinlichkeitsräume2.1. Der diskrete Fall2.2. Der stetige Fall2.3. Unabhängigkeit und bedingte

Wahrscheinlichkeit

3. Zufallsvariablen3.1. Grundbegriffe3.3. Erwartungswert und Varianz

III. Induktive Statistik

1. Schätztheorie 1.1. Grundbegriffe, Stichproben 1.2. Maximum-Likelihood-Schätzer 1.3. Erwartungstreue Schätzer 1.4. Konfidenzintervalle 1.5. Spezialfall Binomial-Verteilung

2. Spezialfall Normalverteilung 2.1. Student- und Chi-Quadrat-Verteilung 2.2. Konfidenzintervalle

3. Tests 3.1. Grundbegriffe 3.2. Tests einfacher Hypothesen (Neyman-Pearson-Test) 3.3. Tests zusammengesetzter Hypothesen 3.4. Vergleich zweier unabhängiger Stichproben 3.5. Chi-Quadrat-Tests 3.6. Kolmogorov-Smirnov-Test 3.7. Einfache Varianzanalyse

Beschreibende Statistik

Beschreibende Statistik(= Deskriptive Statistik)Beschreibung von Datenmaterial

Schließenden Statistik(= Induktive Statistik)Analyse von Datenmaterial,Hypothesen, Prognosen

1. Semester

2.Semester

Wahrscheinlich-keitstheorie

1. Semester

HäufigkeitenGegeben ist eine Datenliste (Urliste)

(hier z. B. die Klausur-Noten von 50 Studenten) 3 3 4 5 2 1 3 3 4 3

2 3 4 4 4 5 2 1 3 33 3 4 4 4 5 4 3 4 32 3 3 2 4 3 2 1 5 44 4 5 4 5 1 1 3 3 3

Hier die geordneten Daten

1 1 1 1 1 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 45 5 5 5 5 5

Absolute Häufigkeiten

H(1) = 5H(2) = 6H(3) = 18H(4) = 15H(5) = 6

h(1) = 0.1 h(2) = 0.12h(3) = 0.36h(4) = 0.3h(5) = 0.12

Relative Häufigkeiten

Kumulierte relative Häufigkeiten

F(1) = 0.1F(2) = 0.22F(3) = 0.58F(4) = 0.88F(5) = 1

Fakultäten EMAUBerechnung der Winkel für ein Kreisdiagramm

T: TheologischeRSW: Rechts- und Staatswiss.Med: MedizinischePhil: PhilosophischeMathNat: Mathematisch-Naturwiss.K: Studienkolleg, ...

h(T) = 0.011 h(RSW) = 0.22h(Med) = 0.164h(Phil) = 0.309h(MathNat) = 0.273h(K) = 0.022

3.96 Grad 79.2 Grad 59.04 Grad111.24 Grad 98.28 Grad 7.92 Grad

Kreisdiagramm Fakultäten EMAU

Stabdiagramm „Zähne“

Histogram „Zähne“

Empirische Verteilungsfunktion„Zähne“

Stem-Leaf-Diagramm

Bei diesem Diagramm werden meist nur die beiden führen-den Ziffern berücksichtigt. Die erste Ziffer wird links von Einer senkrecht gezogenen Linie eingetragen.Damit hat man den Stamm.

Die zweiten Ziffern - die Blätter - werden rechts davonnotiert, und zwar zeilenweise aufsteigend geordnet. Dabei muss jeder Wert des Datensatzes durch einezweite Ziffer (ggf. Null!) repräsentiert werden.

Kaltmieten

Charakterisierung von Merkmalen

Merkmalen

quantitative: Merkmale unterscheiden sich nach der Größequalitative: Merkmale unterscheiden sich nach der Art

Unterscheidung nach der zugrundeliegenden Werteskala

Nominal-Ordinal-metrische

Skala

Unterscheidung zwischen

qualitativenquantitativen

Nominal: keine RangordnungOrdinal: Rangordnung, aber Zwischenwerte nicht interpretierbarmetrisch: Rangordnung (Reihenfolge), Werte zwischen 2 Werten erlauben eine Interpretation

Unterscheidung nach

diskretenstetigen Merkmalen

diskret: Menge der Werte abzählbar (evtl. abzählbar unendlich)stetig: Menge der Werte kontinuierlich, (z.B. reelle Zahlen oder ein Intervall reeller Zahlen)

Ordinal, diskret

metrisch, diskret

metrisch, stetig

Ordinal, diskret

Arithmetisches Mittel

Merkmal

Datensatz

Median

Merkmal

Geordneter Datensatz

n ungerade: Wert, der in der Mitte steht

n gerade: arithmetisches Mittel der beiden Werte, die in der Mitte stehen

AchtungAchtung

Aufgabe!

AchtungAchtung

Aufgabe!

noch eine

Quantile

Boxplot

Ober-, Untergrenze der „Box“: oberes, unteres Quartil„dicker Strich“ in der Box: Median

Ausreißer nach oben:Werte > oberes Quartil + 1.5 Quartilsabstand

Ausreißer nach unten:Werte < unteres Quartil - 1.5 Quartilsabstand

Jeder Ausreißer wird mit einem Symbol gesondert einge-tragen. Antennen: größter und kleinster Wert in der Datenliste, der kein Ausreißer ist

AchtungAchtung

Aufgabe!

AchtungAchtung

Aufgabe!

noch eine

Mittelwert oder Median

Grobe Faustregeln

Metrische Skalierung

Ordinale Skalierung

Ausreißer wahrscheinlich

Wenn sich die Werte „irdendwie“gegeneinander ausgleichen

Mittelwert

Median

Median

Mittelwert

Streuungsparameter

Median

Mittlere Abweichung vom Median

Die Ungleichung gilt für jede Konstante c.

StreuungsparameterMittelwert

Varianz

Die Ungleichung gilt für jede Konstante c.

Rechenregeln für Mittelwert, Varianz und Streuung

Rechenregeln für Mittelwert, Varianz und Streuung

Rechenregeln für Mittelwert, Varianz und Streuung

Berechnung von Streuungsparametern an einem einfachen Beispiel

Konzentrationsmaße(Gini-Koeffizient, Lorenz-Kurve)

Konzentrationsmaße

Kennwert für die wirtschaftliche Konzentration

Typische Beispiele:

Verteilung des Geldvermögens unter den einzelnen Bevölkerungsgruppen

Verteilung von Marktanteilen

Aufteilung der landwirtschaftlichen Nutzflächen in einer Region

Ein Markt wird von 5 Unternehmen beliefert. Die folgende Tabelle beschreibt die

Aufteilung der Marktanteile:

Daraus ergeben sich die folgenden Werte für die Punkte auf der Lorenz-Kurve:

Dazu die Lorenz-Kurve:

Berechnung des Gini-Koeffizienten

AchtungAchtung

Aufgabe!

AchtungAchtung

Aufgabe!

noch eine

Landwirtschaftlich genutzte Fläche einer Region

Dazu die Lorenz-Kurve:

Datenmatrix

Datentabelle für 2 Merkmale

Kontingenztafel der absoluten Häufigkeiten

Kontingenztafel der relativen Häufigkeiten

X: Art des Betriebes 1 = Handelsbetriebe2 = Freie Berufe (Leistungsbetriebe)3 = Fertigungsbetriebe

Y: Art der hinterzogenen Steuer1 = Lohnsteuer2 = Einkommenssteuer3 = Umsatzsteuer4 = Sonstiges

Betriebe und hinterzogene SteuerKontingenztabelle

Kovarianz

Merkmal

Datensatz

Merkmal

Datensatz

Korrelationskoeffizientnach Bravais-Pearson

Eigenschaften

X und Y unabhängig

X größer Y größer

X größer Y kleiner

Positiver strikter Zusammenhang

Negativer strikter Zusammenhang

Korrelationskoeffizientbei verschiedenen Konstellationen

von Ausprägungen

Korrelationskoeffizient: 0.905Korrelationskoeffizient: 1.00

Korrelationskoeffizient: 0.19Korrelationskoeffizient: 0.52

Korrelationskoeffizient: -0.14Korrelationskoeffizient: 0.00

Korrelationskoeffizient: -1.00Korrelationskoeffizient: -0.62

AchtungAchtung

Aufgabe!

AchtungAchtung

Aufgabe!

noch eine

Mögliche Funktionenklassenfür die

Regressionsrechnung

Lineare FunktionenLineare Funktionen

Polynome

Exponentialfunktionen(Exponentielles Wachstum; x ist die Zeit)

Gompertz-Kurven

Logistische Funktionen

Prinzip der kleinsten Quadrate(Kleinst-Quadrat-Schätzung)

Man sucht in der betrachteten Klassediejenige Funktion f, so dass die Summeder Abweichungsquadrate minimiert wird:

Bestimme f, so dass

minimal !!

Aufgaben der Regressionsrechnung

Stellt man sich für den Moment x als die Zeit vor, so möchte man die beobachteten Werte auf die „Zukunft“extrapolieren. Man erstellt eine „Prognose“.Dazu bedient man sich der gefundenen Funktion f, um für eine „Zeit“ x der „Zukunft“ den Wert y = f(x)zu schätzen.

1. Extrapolation

2. Interpolation

Man interessiert sich für den Wert von y = f(x)Für Zwischenwerte von x, d. h. fürWerte x, die zwischen 2 beobachtetenWerten liegen:

Wieder bedient man sich der Funktion f, um eine Interpolation der Wertedurchzuführen.

Lineare RegressionFinde reelle Zahlen a und b,so dass der Wert von

minimal wird!

Mit anderen Worten: Finde den „Punkt“(a ,b), an dem die Funktion

ihr Minimum annimmt!

Steigung der Regressionsgeraden

Schnitt der Regressionsgeradenmit der y-Achse bei

BestimmtheitsmaßMaß für die Güte der Anpassung derDaten an die Regressionsfunktion

Dabei ist

In einem Kaufhauskonzern mit 10 Filialen soll die Wirkung von Werbeausgaben auf die Umsatzsteigerung untersucht werden.Die Daten sind:

X: Werbeausgaben in 1000 EuroY: Umsatzsteigerung in 10 000 Euro

Demonstrationsbeispiel Lineare Regression

Mittelwerte Varianzen

Kovarianz

Steigung der Regressionsgeraden

Schnitt der Regressionsgeradenmit der y-Achse bei

AchtungAchtung

Aufgabe!

AchtungAchtung

Aufgabe!

noch eine

Statistische Maßzahlen

Bisher:Lagemaße

MittelwertMedianQuantile (Quartile)

Streuungsmaße

VarianzStandardabweichungKovarianzKorrelation

Konzentrationsmaße Gini-Koeffizient

Verhältniszahlen

Beziehungs-zahlen

Gliederungs-zahlen

Index-zahlen

Warenkorb

N Güter (Mengen und Preise) in der

Basisperiode 0

Berichtsperiode t

Preise in der Basisperiode 0

Preise in der Berichtsperiode t

Mengen in der Basisperiode 0

Mengen in der Berichtsperiode t

Preisindex nach Laspeyres

Preisindex nach Paasche

Laspeyres: Bezug auf den alten Warenkorb

Paasche: Bezug auf den neuen Warenkorb

Formeln für die Preisindizesnach Laspeyres und nach Paasche

Aggregatform

Wegen der besseren Übersichtlichkeitdefinieren wir uns einen sehr kleinen Warenkorb bestehend aus:

In den Jahren 1950 bis 1953 werden für den Jahres-verbrauch pro Einwohner und für die Preise die folgendenDaten zu Grunde gelegt:

ZigarettenBier

Kaffee

Index 0Index 1Index 2

Index 3

19501951

19521953

AchtungAchtung

Aufgabe!