Lineare Regression

Problemstellung Kostenfunktion Gradientenabstiegsverfahren

Lineare Regression

Christian Herta

Oktober, 2013

1 von 33 Christian Herta Lineare Regression

Lernziele

Lineare RegressionKonzepte des Maschinellen Lernens:

Lernen mittels TrainingsmengeKostenfunktion (cost function)Gradientenabstiegsverfahren (gradient descent)

Outline

1 Problemstellung

2 Kostenfunktion

3 Gradientenabstiegsverfahren

Lineare Regression

Überwachtes Lernen(supervised learning):

m-Beobachtungen: {x (i)}mit Zielwerten {y (i)}Ziel: Vorhersage einesWertes y für einen neuenWert für x.

Lineares ModellWie sieht dieGeradengleichung aus?

Lineare Regression

Überwachtes Lernen(supervised learning):

m-Beobachtungen: {x (i)}mit Zielwerten {y (i)}Ziel: Vorhersage einesWertes y für einen neuenWert für x.

Lineares Modell (zweiParameter):hΘ(x) = Θ0 + Θ1x

Lineare Regression

Idee: Finde eine Gerade hΘ(x), die �möglichst nahe� zu denDatenpunkten ist.

Trainingsmenge

Notation:

m: Anzahl derTrainingsbeispiele

x : Inputvariable

y : Outputvariable

(x , y): ein Trainingsbeispiel

(x (i), y (i)):ite-Trainingsbeispiel

Beispieldatensatz: Hg-PCVhaemoglobin packed celllevel / g/dL (x) volume (y)

15.5 0.45013.6 0.42013.5 0.44013.0 0.395. . . . . .

Übersicht: Trainingsverfahren

Modell hΘ(x)

Bestimmen derModellparameter Θmittels Lernen aus denDaten (Trainingsmenge)

Funktion hΘ : Hypothese

Lineare Regression mit einer Variable (Univariate LineareRegression)

Warum der Name �Lineare Regression mit einer Variable�?

Eine Variable: x

Hypothese hΘ(x) = Θ0 + Θ1x

Hypothese ist linear bezüglich der Variable x

Hypothese ist linear bezüglich der anpassbaren ParameterΘ0,Θ1.

Vorhersage einer Flieÿkomma-Zahl mittels der Hypothese:Regression

Outline

1 Problemstellung

2 Kostenfunktion

Kostenfunktion (cost fuction)

AusgangspunktHypothese hΘ(x) = Θ0 + Θ1x

Trainingsmenge D (Paare (x , y) )

Ziel: Bestimmen der Modellparameter Θ = {Θ0,Θ1} mittelsLernen aus den Daten (Trainingsmenge)

Kostenfunktion ((squared error) cost function):

JD(Θ) =12m

m∑i=1

(hΘ(x (i))− y (i))2

Ziel: Minimieren der Kosten(funktion)

minimizeθJ(Θ)

Kostenfunktion (cost fuction)

Beachte Kostenfuntion J(Θ) ist eine Funktion von Θ.

Hypothese hΘ(x) ist eine Funktion von x mit festenParametern Θ.

Erläuterung beider Funktionen an der Tafel am einfachen Beispiel hΘ1(x) = Θ1 ∗ x und 3

Trainingsbeispiele, für die eine Hypothese (nur hier: JΘmin1

= 0) gefunden werden kann.

Beipiel: Kostenfunktion und Hypothese

Datenerzeugung: y(x) = x + N(µ = 0, σ = 2.5) (N: Normalverteilung)

Hypothese: h(x) = Θ1 · x

Problemstellung mit zwei Parametern

Hypothese: hΘ(x) = Θ0 + Θ1 · xzwei Parameter: Θ0,Θ1

Kostenfunktion: J(Θ0,Θ1) = 1

∑mi=1

(hΘ(x (i))− y (i))2

⇒ Darstellung von J(Θ0,Θ1) in drei Dimensionen: Θ0,Θ1, J

Contour Plot

Konvexes Problem: nur ein Minimum14 von 33 Christian Herta Lineare Regression

Datenraum und Parameterraum

Kostenfunktion - Übersicht

Kosten sind eine Funktion der Parameter

Ziel ist es die Kosten zu minimieren, um gute Parameter zu�nden.

Konzept der Kostenfunktion auch für andere Arten vonModellfunktionen, wie Neuronale Netze und K-MeansClustering

Outline

1 Problemstellung

2 Kostenfunktion

Problemstellung

Hypothese: hΘ(x) = Θ0 + Θ1 · xParameter: Θ0,Θ1

Kostenfunktion: J(Θ0,Θ1) = 1

∑mi=1

(hΘ(x (i))− y (i))2

Ziel: minimizeΘJ(Θ)

Gradientenabstieg

minimizeθJ(Θ)

1 Starte mit speziellen Werten für Θ. Bei univariater linearerRegression: Θ = {Θ0,Θ1}

2 Verändere die Werte für Θ so, sodass J(Θ) kleiner wird.Wiederhole Schritt 2 solange, bis ein Minimum erreicht ist.

Gradientenabstiegsverfahren

minimizeθJ(Θ)

1 Starte mit speziellen Werten für Θ0,Θ1

2 Bestimme den Gradienten (partiellen Ableitungen), um neueΘ0,Θ1 Werte in der Umgebung der alten Θ-Werte mitfolgender Update Rule zu �nden:

Θneuj ← Θalt

j − α∂

∂Θj

J(Θalt)

mit α : Lernrate (learning rate)

3 Gehe zu 2 bis ein Stopp Kriterium (stopping condition) erfülltist, wie z.B. nur noch marginale Änderung der Kosten.

Gleichzeitiges Update aller Parameter

Beachte bei der Implementierung: Gleichzeitiges Update allerParameter

temp0← Θ0 − α∂

∂Θ0

J(Θ0,Θ1)

temp1← Θ1 − α∂

∂Θ1

J(Θ0,Θ1)

Θ0 ← temp0

Θ1 ← temp1

Berechung der Gradienten

Rechenübung

Gradientenabstiegsverfahren für lineare Regression: Θ0

Θ0 ← Θ0 − α∂

∂Θ0

J(Θ) =∂

∂Θ0

m∑i=1

(hΘ(x (i))− y (i))2

∂Θ0

m∑i=1

(Θ0 + Θ1 · x (i) − y (i))2

m∑i=1

(Θ0 + Θ1 · x (i) − y (i))

Gradientenabstiegsverfahren für lineare Regression: Θ1

Θ1 ← Θ1 − α∂

∂Θ1

J(Θ) =∂

∂Θ1

m∑i=1

(hΘ(x (i))− y (i))2

∂Θ1

m∑i=1

(Θ0 + Θ1 · x (i) − y (i))2

m∑i=1

(Θ0 + Θ1 · x (i) − y (i)) · x (i)

Schrittweite

Schrittweite hängt von zwei Faktoren ab:

Gröÿe des Gradienten ∂∂Θi

Lernrate α > 0 (Hyperparameter)

α muss richtig gewählt werden (mehr hierzu später).

Annäherungen der Gerade mit den Iterationen

Startwert für Θ = (1., 1.)

Beispieldatensatz: Hg-PCV26 von 33 Christian Herta Lineare Regression

Annäherungen der Gerade mit den Iterationen

Startwert für Θ = (1., 1.)

Beispieldatensatz: Hg-PCV27 von 33 Christian Herta Lineare Regression

Warum ist das Lernen so langsam?

(negative) Gradient zeigt (meist) weg vom Minimum!→ Zig-Zag Bewegung im Parameterraum oder sehr kleines α

Beispieldatensatz: Hg-PCV

Kostenfunktion bei umskalierten x-Werte

Lösung: Feature Scaling - Erklärung später im KursBeachte: Der Gradient zeigt direkt zum Minimum!

Beispieldatensatz: Hg-PCV

Kostenfunktion bei umskalierten x-Werte

Erklärung an einfachem Beispiel: x-Werte der grünen Daten sindmit Faktor 2 multipliziert.

Batch, Mini-Batch und Online Learning

Batch-Learning: Verwende alle Trainingsdaten für einenOptimierungsschritt

Mini-Batch Learning: Verwende einen (kleinen) Teil derTraingsdaten für einen Optimierungsschritt

Online Learning: Verwende nur ein Trainingsdatum pro Schritttypischerweise Auswahl per Zufall (Stochastic Gradient

Descent)

Literaturangabe

Andrew Ng: Machine Learning. Openclassroom StanfordUniversity, 2013

Weiterführende Literatur:

C. Bishop: Pattern recognition and Machine Learning,Springer Verlag 2006

Lineare Regression - ChristianHerta

Documents

Transcript of Lineare Regression - ChristianHerta

Analyse mit Lucene - ChristianHerta

Kovarianz, Korrelation, (lineare) Regression Jonathan Harrington.

1 Nichtlineare Regression - ETH Zstat.ethz.ch/~stahel/courses/cheming/nlreg.pdf · 1.1. DAS MODELL 13 i Eine lineare Regression mit der linearisierten Regressionsfunktion beruht im

Eine Einführung in R: Lineare Regression · Eine Einführung in R: Lineare Regression Katja Nowick, Lydia Müller und Markus Kreuz Institut für Medizinische Informatik, Statistik

Inhalt 1. Problemstellung 2. Univariate lineare Regression 3. Multiple lineare Regression 4. Hauptkomponenten Regression (PCR) 5. Partielle kleinste Quadrate.

Bedingte lineare Regression€¦ · 3 Bedingte lineare Regression: Definition 5 Definition 10.1.Seien X und Y numerische Zufallsvariablen mit endlichen Erwartungswerten und Varianzen

Regression - Boogaart · 4.2.2 Beispiel lineare Regression Ein wichtiger Spezialfall des linearen Modells ist die lineare Regression. Dabei ist die Einﬂussgr¨oße ein einzelne

Kovarianz, Korrelation, (lineare) Regression Jonathan Harrington Die R-Befehle, die zu diesen Folien passen, sind in der Webseite vorhanden.

Kovarianz, Korrelation, (lineare) Regression

stat.ethz.chstat.ethz.ch/education/semesters/ss2012/regression/Regression.pdf · Inhaltsverzeichnis 1 Lineare Regression 5 1.1 Einf uhrung: Fragestellung . . . . . . . . . . . . .

3. Regression · Multiple lineare Regression § Multiple lineare Regression nimmt an, dass sich das abhängige Merkmal y als lineare Kombination der unabhängigen Merkmale x (,j)

Ausgleichungsrechnung II Gerhard Navratil Regression und Kollokation Regression –Lineare Regression Kovarianzfunktion Kollokation –Ansatz –Schätzung der.

Indizierung mit Lucene - ChristianHerta

2. Regression - swl.htwsaar.de€¦ · 5 Inhalt § 2.1 Einfache lineare Regression § 2.2 Multiple lineare Regression § 2.3 Nominale und ordinale Merkmale § 2.4 Gradientenabstiegsverfahren

Bivariate Und Multiple Lineare Regression

Beispiel Lineare Regression - statistik.boku.ac.at Lineare Regression Seite 5 von 9 Eine Streudiagrammmatrix kann aber keinen Zusammenhang, der durch eine Linearkombination zweier

Fehlerrechnung und –schätzung, lineare und nichtlineare ... · Fehlerrechnung und –schätzung, lineare und nichtlineare Regression Inhalt 0 Einleitung 1 Wahrer Wert, Erwartungswert,

TEIL 13: DIE EINFACHE LINEARE REGRESSION · Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische

Poisson Regression [1em] Verallgemeinerte Lineare …meier/teaching/reg/3_GLM.pdfPoisson Regression: Interpretation der Parameter Schauen wir das Modell noch etwas genauer an. Es gilt