Wahrscheinlichkeitsrechnung und Mathematische Statistik für … · 2017-10-10 · Entwicklung seit...

Wahrscheinlichkeitsrechnung undMathematische Statistik fur Informatiker

SoftwareFolien von Uwe Ligges

Jorg Rahnenfuhrer

WS 2017/2018

1 Statistiksoftware (R)

1.0 Statistiksoftware – R

http://www.R-project.org

Entwicklung seit 1992

Inspiriert von S / S-PLUS

Einsatz an Universitaten und Forschungsinstituten sowie immer mehrin der Industrie

Lizenz: GPL 2 (freie Software, Open Source Software)

Jorg Rahnenfuhrer: Wahrscheinlichkeitsrechnung und Mathematische Statistik fur Informatiker WS 2017/2018 2

1.0 Statistiksoftware – SAS

http://www.sas.com

zunachst:”Statistical Analysis Systems“

heute:”sas“

SAS Institute, gegrundet 1976, 2 Mrd. US$ Jahresumsatz.

Einsatz vor allem in Medizin, Pharmaindustrie, im CRM, beimScoring

CRM: Customer Relationship Management

1.0 Statistiksoftware – SPSS

http://www.spss.com

zunachst”Statistical Package for the Social Sciences“

dann”Superior Performing Software System“

heute”SPSS“

gegrundet 1968 als eigenstandige Firma

2009 an IBM verkauft

Einsatz vor allem in den Sozial- und Geisteswissenschaften, im CRM,beim Scoring

1.0 Statistiksoftware – weitere

Weitere Statistiksoftware:

Gauss (USA, seit 1984)

Minitab (USA, seit 1972)

Stata (USA)

Statistica (StatSoft, Deutschland)

1.0 Statistiksoftware – Anforderungen

Anforderungen an Statistiksoftware:

Interaktive Arbeit mit Daten fur die Datenanalyse

Erstellung statistischer Grafik

Hohe numerische Genauigkeit

Hohe Rechengeschwindigkeit

Verarbeitung großer Datenmengen

Automatisierbarkeit von Methoden und sich wiederholender Ablaufe

Einfache Bedienbarkeit / Programmierbarkeit

Nebenbedingungen: Preis, unterstutzte Hardware, Parallelisierung, ...

Diese Anforderungen widersprechen sich teilweise. Je nach Gewichtungder Schwerpunkte erfolgt die Wahl einer entsprechenden Software.

Software kann niemals besser sein als ihr Benutzer!

1 Statistiksoftware (R) 1.1 R Einfuhrung

1.1 Programmierung (mit R) – Warum?

Automatisierung sich wiederholender Ablaufe

Anpassung vorhandener Verfahren an neue Problemstellungen

Implementierung neuer Verfahren

Simulationen

1.1 Programmierung mit R – Alles super?

Vorteile von R: Open Source

Keine”black box“, alles kann nachvollzogen werden

”Am Puls der Forschung“

Erweiterbarkeit, Skalierbarkeit(Interfaces zu anderen Programmiersprachen, Datenbanken etc.)

Auf (fast) jedem Betriebssystem / jeder Plattform lauffahig

Nachteile von R

Keine komfortable grafische Benutzeroberflache (aber RCommander, JGR u.a.)

Keine interaktive Grafik (aber iplots, rgl u.a.)

1.1 Programmierung mit R – R, was ist das?

A language and environment for data analysis and graphics

Open Source

Mittel zum Technologie- / Methodentransfer durch Packages

Ein Datenzugriffsmechanismus fur

text Dateien und R WorkspacesDatensatze von SPSS, Minitab, SAS Xport, ...Relationale Datenbanken – ODBC, PostgreSQL, MySQL, ...

1.1 Programmierung mit R – Wo bekomme ich R?

Alles rund um R gibt es auf der

R Homepage http://www.R-Project.org und auf dem

CRAN (Comprehensive R Archive Network):http://CRAN.R-Project.org

R sources und binaries fur diverse Betriebssysteme

weit uber 4000 R Pakete zu diversen (statistischen) Verfahren

andere relevante Software (geeignete Editoren, Erweiterungen, ...)

Bucher, Publikationen, Manuals, FAQs, Dokumentation

The R Journal

Zugriff auf Mailing Listen (R–help, R–devel)

Bug–Tracking System und Entwickler–Seiten

Links zu relevanten anderen Projekten (z.B. Bioconductor,Omegahat)

1.1 R als Taschenrechner

Beispiele:

3 + 5 * 2

(4 / pi)^3 # Dies ist ein Kommentar (nach dem Zeichen "#").

0 / Inf

0 / 0 # Nicht definiert -> NaN

Inf - Inf # Nicht definiert -> NaN

sin(pi / 2) # Funktionsname: sin ; Argument: pi / 2

Es gilt”Punkt- vor Strichrechnung“!

Es ist aber immer sinnvoll Klammern zu setzen, um die Lesbarkeit einesProgramms zu verbessern und Irrtumern vorzubeugen.

1.1 Grundlegendes Rechnen

Grundlegende Operatoren +, -, *, /, ^

Ganzzahlige Division,Modulo %/%, %%

Extremwerte, Betrag max(), min(), abs()

Wurzel sqrt()

Runden (Ab-, Auf-) round(), floor(), ceiling()

trigonometrische sin(), cos(), tan(),

Funktionen asin(), acos(), atan()

Logarithmen log(), log10(), log2(), exp()

Summe, Produkt sum(), prod()

Die Zahl π pi

Unendlichkeit Inf, -Inf (infinity)nicht definiert NaN (Not a Number)fehlende Werte NA (Not Available)leere Menge NULL

1.1 Funktionen

Gerade ist uns eine Vielzahl verschiedener Funktionen begegnet.

Jegliches Arbeiten geschieht mit Funktionen.

Ein Funktionsaufruf hat die Form, dass der Funktionsnameangegeben wird, dem in runden Klammern ein oder mehrere durchKommata getrennte Argumente folgen:funktionsname(Argument1 = Wert1, Argument2 = Wert2, usw.).

Argumente mit Voreinstellungen mussen beim Funktionsaufruf nichtmit angegeben werden.

Falls es Voreinstellungen fur Argumente gibt, so sind diese in derRegel auf der Hilfeseite der entsprechenden Funktion angegeben.

1.1 Hilfe!

Starten des Hilfesystems help.start()

im BrowserHilfe zu einer Funktion help("Funktionsname")

?Funktionsname

Beispiele:

help.start() # Der Browser offnet sich.

?abs # Hilfe zur Funktion abs()

1.1 Mehr Hilfe!

Sollte die Dokumentation in den Hilfeseiten nicht ausreichen, so suchtman ublicherweise in der folgenden Reihenfolge in weiteren Quellen:

mitgelieferte FAQs

mitgelieferte Manuals

evtl. vorhandene Bucher

Archive der Mailinglisten R–help und evtl. R–devel

zuletzt eine Frage an die Mailingliste R–help richten

1.1 Zuweisungen

x <- 3.25 # eine Zuweisung

neue.Variable1 <- x

neue.Variable2<-neue.Variable1+2#kaum lesbar!

neue.Variable2 <- neue.Variable1 + 2 # jetzt besser lesbar

Fazit:Man sollte sinnvoll Leerzeichen einfugen, um die Lesbarkeit zu erhohen.Namen sollten mit einem Buchstaben beginnen, durfen aber auch Zahlenenthalten.

1.1 Logik

Vergleiche ==, !=, >, <, >=, <=

Konstanten TRUE, FALSE und NA

Operatoren ! (Negation),xor() (ausschließendes oder)&, &&, |, || (und, oder)

1.1 Logik

Beispiele:

4 < 3 #-> FALSE

(3 + 1) != 3 #-> TRUE

(3 >= 2) & (4 == (3 + 1)) #-> TRUE

TRUE + FALSE + TRUE # TRUE = 1, FALSE = 0 #-> 2

-3<-2 # falsch - Zuweisung! #-> Error

-3 < -2 #-> TRUE

1 Statistiksoftware (R) 1.2 Datenstrukturen in R

1.2 Datenstrukturen

Unter Datenstrukturen versteht man eine Beschreibung dessen, wie dieDaten dargestellt werden und angeordnet sind.

Je nach Problemstellung und Art der Daten gibt es verschiedenegeeignete Darstellungsarten.

In der Informatik benutzt man Datenstrukturen um Daten soanzuordnen, dass effizient damit zu rechnen, z.B. Baume furSortierverfahren.

In der Statistik werden Datenstrukturen benutzt, die die Natur derDaten berucksichtigen, so dass sie angemessen reprasentiert werdenund in Modellen spezifiziert werden konnen.

Wir werden u.a. folgende Datenstrukturen kennenlernen:Vektoren, Matrizen, Arrays, Data Frames, Listen, . . . .

1.2 Vektoren

Mit der Funktion c() (combine) kann man Vektoren erzeugen, z.B.:

x <- c(4.1, 5.0, 6.35)

x <- c(7.9, x, 2)

y <- c("Hallo", "Welt")

y <- c("Statistik", TRUE, x) # alles wird zu "character"

Die Daten innerhalb eines Vektors mussen konsistent sein. U.a. sindfolgende Typen moglich:

logical Wahr (TRUE) oder Falsch (FALSE)numeric [integer] Ganzzahlennumeric [double] reelle Zahlen in doppelter Maschinengenauigkeit

complex Komplexe Zahlencharacter Buchstaben und Zeichenfolgen (strings)

1.2 Vektoren

Bei nicht konsistenter Eingabe wird das”niedrigste“ Niveau gewahlt, wie

etwa im letzten Beispiel:> y

[1] "Statistik" "TRUE" "7.9" "4.1" "5" "6.35" "2"

Alle Typen sind als character darstellbar, aber es ist nicht eindeutigmoglich, das Wort

”Statistik“ als Zahl oder gar als logischen Wert

darzustellen.

Vektoren transponieren: t(x)

Vektoren multiplizieren: x %*% y

1.2 Folgen und Wiederholungen

Folgen seq(Anfang, Ende, by = Abstand)

seq(along = Objekt)

Anfang:Ende

Wiederholungen rep(Objekt, Anzahl)

rep(Objekt, each = Anzahl)

Beispiele:

1:10 #-> 1 2 3 4 5 6 7 8 9 10

x <- seq(4, 14, 2) #-> 4 6 8 10 12 14

rep(3, 12) #-> 3 3 3 3 .....

rep(x, 2) #-> 4 6 8 ... 14 4 6 8 ... 14

rep(x, each = 2) #-> 4 4 6 6 8 8 ... 14 14

rep(TRUE, 3) #-> TRUE TRUE TRUE

seq(along = x) #-> 1 2 3 4 5 6

1.2 Rechnen mit Vektoren

Das Rechnen mit Vektoren geschieht komponentenweise, wie z.B. in:

2:4 * 1:3 #-> 2 6 12

x <- c(4.1, 5.0, 6.35) * 2 #-> 8.2 10 12.7

x + 5:7 #-> 13.2 16 19.7

t(2:4) %*% 1:3 #-> 20

1.2 Indizierung von Vektoren

Es konnen einzelne Elemente eines Vektors mit Hilfe des zugehorigenIndex angesprochen werden. Dazu wird dem Namen des Vektors derentsprechende Index in eckigen Klammern nachgestellt, z.B.: x[3].

Mehrere Indices konnen als Vektor angegeben werden.

Voranstellen eines Minus–Zeichens ermoglicht eine inverse Auswahl(z.B. zum Ausschließen eines oder mehrerer Elemente).

Auch logische Indizierung ist moglich(TRUE fur

”gute“, FALSE fur

”schlechte“ Elemente)

Benannte Elemente konnen uber ihren Namen angesprochen werden.

Man kann auch einer Indizierung einzelne Elemente eines Vektorszuweisen, um Elemente eines Vektors zu ersetzen.

Beispiele:

x <- c(3, 6, 9, 8, 4, 1, 2)

length(x) # 7

x[3] # 9

x[c(4, 2)] # 8 6

x[-3] # 3 6 8 4 1 2

x[- c(2, 3, 7)] # 3 8 4 1

x < 4 # TRUE FALSE FALSE FALSE FALSE TRUE TRUE

logik.vektor <- x < 4

x[logik.vektor]

x[x < 4] # 3 1 2

Beispiele:

x <- c(besser = 3, schlechter = 5, egal = 2)

x["besser"] #-> 3

x <- 1:10 #-> 1 2 3 4 5 6 7 8 9 10

x[5] <- 8 #-> 1 2 3 4 8 6 7 8 9 10

x[9:10] <- 10:9 #-> 1 2 3 4 5 6 7 8 10 9

x[] <- 2 #-> 2 2 2 2 2 2 2 2 2 2

x <- 2 #-> 2

1.2 Zusammenstellung nutzlicher Funktionen

sort() Sortierenrank() Vektor der Range (ohne/mit Entfernen von Bindungen)order() Vektor mit Indexzahlen, der zum Sortieren verwendet wird.

identical() Uberprufung von exakter Gleichheit zweier Objekte

all.equal() Uberprufung auf numerische Gleichh. bzgl. Maschinen-Rechengenauigkeit

which() Welche Elemente erfullen eine gegebene Bedingung?

choose() Effiziente Berechnung des Binomialkoeffizienten

1.2 Matrizen

Matrizen werden mit der Funktionmatrix(data = NA, nrow = 1, ncol = 1, byrow = FALSE)

erzeugt, wobei die Argumente folgende Bedeutung haben:

data Ein Vektor mit den Daten, sortiert nach Spalten oder Zeilen.nrow Zeilenanzahlncol Spaltenanzahl (unnotig, wenn data und nrow angegeben ist)byrow Falls TRUE, wird die Matrix zeilenweise aufgebaut, sonst spaltenweise

Beispiele:

X <- matrix(c(4, 7, 3, 8, 9, 2), nrow = 3) # spaltenweise

Y <- matrix(c(4, 7, 3, 8, 9, 2), nrow = 3, byrow = TRUE)

Z <- matrix(c(4, 7, 3, 8, 9, 2), ncol = 3)

t(Z) == Y # transponieren - OK!

1.2 Indizierung von Matrizen

Die Indizierung von Matrizen geschieht analog zur Indizierung vonVektoren, also auch per Index(-vektor), negativem Index, Namen oderlogischen Werten.

Um den Wert mit Index (i , j) (Zeile i , Spalte j) einer Matrix Xanzusprechen, verwendet man die Form: X[i, j]

Das Weglassen einer Spaltenangabe, also etwa X[i, ], ermoglicht dasAnsprechen des i-ten Zeilenvektors, bzw. X[, j] fur den j-tenSpaltenvektor.

Beispiele:

X <- matrix(c(4, 7, 3, 8, 9, 2), nrow = 3)

X[1, 2] #-> 8

X[3, 1] #-> 3

X[3, ] #-> 3 2

X[, 2] #-> 8 9 2

1.2 Funktionen fur Matrizen

Wichtige und nutzliche Funktionen zum Rechnen mit Matrizen:

%*% Matrixmultiplikationdiag() Abfragen und Setzen der Hauptdiagonalendimnames() Spalten- und Zeilennameneigen() Eigenwerte und -vektorenncol(), nrow() Anzahl Spalten bzw. Zeilen einer Matrixsolve() Invertierung einer Matrixt() Transponieren einer Matrix

1.2 Funktionen fur Matrizen

Beispiele:

X <- matrix(c(4, 7, 9, 2), nrow = 2)

str(X) #-> num [1:2, 1:2] 4 7 9 2

t(X) # Transponiert die Matrix

solve(X) # Invertiert die Matrix

diag(X) # Diagonale extrahieren

1.2 Listen

Eine sehr flexible Datenstruktur sind Listen. Jedes Element einer Listekann einen unterschiedlichen Datentyp besitzen, so kann eine Liste z.B.

verschieden lange Vektoren / Matrizen unterschiedlichen Typsenthalten,

selbst wieder Element einer Liste sein.

Es ist manchmal auch sinnvoll, den Elementen einer Liste Namenzuzuweisen.

Listen werden mit list(Element1, Element2, ...) bzw. benannteListen mitlist(E1 = Element1, E2 = Element2, ...) erzeugt.

Der Zugriff auf Elemente einer Liste erfolgt mittels des[[ ]] Operators.

1.2 Listen

Im Gegensatz zu Vektoren kann hier nicht vektorwertig indiziertwerden.

Namen statt eines Index sind moglich.

Auf benannte Elemente kann man einfacher mit dem $ Operatorzugreifen:Liste$Elementname

1.2 Listen

Beispiele:

L1 <- list(V1 = c(1, 2, 5, 4),

M1 = matrix(1:4, 2), V2 = c("A", "Be"))

L1[[2]] # Das zweite Element von L1

L1[[2]][2, 1] # davon das Element [2, 1]

L1[[1]][3] #-> 5

L1$M1 # Das Element "M1"

L1[["V2"]] # Das Element "V2"

str(L1) # liefert wieder detaillierte Einsicht in die Struktur

1.2 Dataframes

Bei Dataframes (Datentabellen ?), die mit data.frame() erzeugtwerden konnen, handelt es sich um spezielle Listen, die dieEinschrankung haben, dass die einzelnen Elemente nur Vektoren gleicherLange sein durfen.

Dataframes sind die typische Datenstruktur fur Datensatze!

Sehr viele Funktionen erwarten Dataframes als Argument(e).

Dataframes konnen wie Listen und wie Matrizen indiziert werden.

1.2 Dataframes

Beispiele:

Name <- c("Olaf", "Sven", "Anja", "Martina", "Eike")

MN <- c(89045, 43678, 88475, 69781, 88766)

HF <- c(rep("Physik", 2),

rep("Maschinenbau", 2),

"Mathematik")

Zweitsemester <- data.frame(Vorname = Name,

Matrikel.Nr = MN, Hauptfach = HF)

Zweitsemester$Matrikel.Nr[3]

Zweitsemester[2:3, 2]

1 Statistiksoftware (R) 1.3 Literatur zu R

1.3 Literatur zu R

Braun, W.J. and Murdoch, D.J. (2007): A First Course in StatisticalProgramming with R, Cambridge University Press, Cambridge.

Dalgaard, P. (2008): Introductory Statistics with R, 2. Auflage,Springer, New York.

Everitt, B. and Hothorn, T. (2009): A Handbook of StatisticalAnalysis Using R, 2. Auflage, Chapman & Hall/CRC, Boca Raton.

Ligges, U. (2009): Programmieren mit R, 3. Auflage, Springer,Heidelberg.

Venables, W.N. and Ripley, B.D. (2002): Modern Applied Statisticswith S, 4th ed., Springer, New York.

Venables, W.N., Smith, D.M., and the R Development Core Team(2012): An Introduction to R. ISBN 3-900051-12-7.

Wahrscheinlichkeitsrechnung und Mathematische Statistik für … · 2017-10-10 · Entwicklung seit...

Documents

Transcript of Wahrscheinlichkeitsrechnung und Mathematische Statistik für … · 2017-10-10 · Entwicklung seit...

Wahrscheinlichkeitsrechnung und Statistik fur Biologen 7 ...evol.bio.lmu.de/_statgen/StatBiol/intervallschaetzer_kompakt.pdf · Wahrscheinlichkeitsrechnung und Statistik fur Biologen

Wahrscheinlichkeitsrechnung und Statistik - c.wgr.de · © 2017 Verlag E. DORNER, Wien Dimensionen – Mathematik 8 1 Training für die schriftliche Reifeprüfung: Wahrscheinlichkeitsrechnung

Klett Wahrscheinlichkeitsrechnung im Griff - Mathematik 5 ... · Klett Wahrscheinlichkeitsrechnung im Griff - Mathematik 5.-10. Klasse School-Scout.de. 3 INHALTSVERZEICHNIS So übst

Virtuelle Realitäten f ür die chirurgische Ausbildung ... · Virtuelle Realitäten f ür die chirurgische Ausbildung: Strukturen, Algorithmen und ihre Anwendung Inauguraldissertation

eduroam auf Android-Geräten mit persönlichem Zertifikat · eduroam auf Android-Geräten mit persönlichem Zertifikat Stand: 23. März 2017 1 Vorwort Diese Anleitung wurde

2. Wahrscheinlichkeitsrechnung2.1 Grundlagen der Wahrscheinlichkeitsrechnung 22 2. Wahrscheinlichkeitsrechnung Der Wahrscheinlichkeitstheorie kommt eine wichtige Rolle als Bindeglied

Statistik B - Universität Bonn · Statistik_II@ﬁnasto 0–6. 6 Wahrscheinlichkeitsrechnung 6.1 Grundbegriﬀe Ziel der Wahrscheinlichkeitsrechnung ist die Analyse einer stochastischen

1 Wahrscheinlichkeitsrechnung - statsoz-neu.userweb.mwn.de · 0 Einf uhrung 1 Wahrscheinlichkeitsrechnung 2 Zufallsvariablen und ihre Verteilung 3 Statistische Inferenz 4 Hypothesentests

Wandel und Kontinuität in den Transformationsländern … · außeruniversitären Forschungsinstituten über die eigenen Institutionen ... Länder" an die EU hat in den ... und Entscheidungswege

C:/cmueller/Lehre/Statistik II/Skript/Statistik II · 1.1 Fragestellungen der Wahrscheinlichkeitsrechnung Christine Muller,¨ Statistik II - Elementare Wahrscheinlichkeitsrechnung,

Christian Eurich Institut für Theoretische Neurophysik Einführung in die Wahrscheinlichkeitsrechnung.

15. WAHRSCHEINLICHKEITSRECHNUNG - mathe-online.at · Wahrscheinlichkeitsrechnung - 106 - 15. WAHRSCHEINLICHKEITSRECHNUNG 15.1. Einführung Ereignisse sind oft nicht genau vorhersagbar.

Wahrscheinlichkeitsrechnung und Statistik fur Studierende ...evol.bio.lmu.de/_statgen/StatBiol/17SS/deskriptive_statistik_article.pdf · Wahrscheinlichkeitsrechnung und Statistik

BA 4.4.1 - MRL - EBRO Armaturen M71-DS-XXX-40 33 F3 T ECHNISCHE D ATEN DER A NTRIEBE 35 F4 E RGÄNZENDE TECHNISCHE D ATEN 36 F5 G LEICHSTROMANTRIEB MIT A KKUPACK 46 F6 T ECHNISCHE

Wahrscheinlichkeitsrechnung und Statistik fur …evol.bio.lmu.de/.../16SS/deskriptive_statistik_article.pdfWahrscheinlichkeitsrechnung und Statistik fur Studierende der Biologie Einfuhrung:

Einführung in die Wahrscheinlichkeitsrechnung und Statistik

Elementare Wahrscheinlichkeitsrechnung · 3. K. Bosch. Elementare Einf uhrung in die Wahrscheinlichkeitsrechnung: Mit 82 Beispielen und 73 Ubungsaufgaben mit vollst andigem L osungsweg.

MathematikmachtFreu(n)de KH–Wahrscheinlichkeitsrechnung · 2021. 1. 13. · MathematikmachtFreu(n)de KH–Wahrscheinlichkeitsrechnung Beispiel 1.6. Wie viele verschiedene Möglichkeiten

Wahrscheinlichkeitsrechnung und Statistik fur Biologen ...evol.bio.lmu.de/_statgen/StatBiol/linmods_kompakt.pdf · Wahrscheinlichkeitsrechnung und Statistik fur Biologen Lineare Modelle

Wahrscheinlichkeitsrechnung eine Einführung