Vorlesung „Computergestützte Statistik“ · - 4 - Kapitel 1: Berechnung 1.1 Was kann ein...

19
- 1 - Vorlesung „Computergestützte Statistik“ WS 16/17 Dr. Uwe Ligges Buch: Foundations of Statistical Algorithms (Weihs, Mersmann, Ligges) Taylor & Francis, 2014

Transcript of Vorlesung „Computergestützte Statistik“ · - 4 - Kapitel 1: Berechnung 1.1 Was kann ein...

- 1 -

Vorlesung

„Computergestützte Statistik“

WS 16/17

Dr. Uwe Ligges

Buch: Foundations of Statistical Algorithms (Weihs, Mersmann, Ligges)

Taylor & Francis, 2014

- 2 -

Inhalt

Kapitel 1: Berechnung

1.1 Was kann ein Computer berechnen?

1.2 Wie rechnet ein Computer?

1.3 Wie genau rechnet ein Computer?

Kapitel 2: Verifikation

2.1 Kondition des Linearen Modells

2.2 Testen von Algorithmen

Kapitel 3: Iteration

3.1 Univariate Optimierung

3.2 Multivariate Optimierung (Nichtlineares Kleinste-Quadrate Problem)

3.3 Beispiel: Neuronale Netze

3.4 Optimierung unter Nebenbedingungen (L1-Regression, SVM)

3.5 Evolutionäre Optimierung

Kapitel 4: Herleitung theoretischer Eigenschaften

4.1 Das PLS-Verfahren

4.2 Der EM-Algorithmus

- 3 -

Kapitel 5: Randomisierung

5.1 Kalkulierter Zufall: Erzeugung univariater Zufallszahlen

5.2 Markov-Chain-Monte-Carlo Methoden

5.3 Eine Fallstudie zu MCMC-Methoden

Kapitel 6: Wiederholung

6.1 Modellwahl bei Regression und Klassifikation

6.2 Resampling Verfahren: Bootstrap und Kreuzvalidierung

6.3 Neuronale Netze: Größe der versteckten Schicht

6.4 PLS: Anzahl latente Variablen

Kapitel 7: Skalierbarkeit und Parallelisierung (Große Datenmengen)

Es folgt ein kurzer Einblick in den Inhalt.

- 4 -

Kapitel 1: Berechnung

1.1 Was kann ein Computer berechnen?

1.1.1 Algorithmen (nach dem usbekischen Mathematiker Ben Musa al-Chwarizmi, 9. Jh.)

Definition 1.1 (Algorithmus)

Ein Algorithmus ist ein Verfahren, mit dem man die Antwort auf Fragen eines gewis-

sen Fragenkomplexes nach einer vorgeschriebenen Methode erhält. Er muss bis in

die letzten Einzelheiten eindeutig angegeben sein. Insbesondere muss die Vorschrift,

die den Algorithmus angibt, durch einen Text endlicher Länge gegeben sein.

Oft sieht man Algorithmen kaum an, was sie berechnen!

Wie konstruiert und liest man Algorithmen?

1.1.2 Komplexität von Algorithmen

Oft gibt es schnelle und langsame Algorithmen zur Lösung eines Problems.

Komplexitätsmaße und was sie aussagen.

- 5 -

1.1.3 Beispiel: Sortieralgorithmen

Kennen Sie wichtige Sortier-Anwendungen in der Statistik?

Komplexität verschiedener Sortieralgorithmen.

1.2 Wie rechnet ein Computer?

Welche Operation ist auf dem Computer fehleranfälliger: Multiplikation oder

Addition ?

Definition von Gleitkommazahlen und -operationen.

1.3 Wie genau rechnet ein Computer?

Rundungsfehler und sog. Konditionszahlen: (a + b) + c ≠ a + (b + c) !!!!

1.3.3 Berechnung der empirischen Varianz

Jeder weiß doch, wie man die empirische Varianz berechnet, oder doch nicht?

Verschiedene Algorithmen, ihre Kondition und eine „optimale“ Kombination.

- 6 -

Klassifikationverfahren und Big Data (4V+2Ü)

WS 16/17

Prof. Dr. Claus Weihs

- 7 -

Was ist Klassifikation?

Vorhersageregel: X Y Features Klassen Wir definieren diese Regeln nicht selbst, sondern „lernen“ sie auto-matisch aus beobachteten Daten. Wir behandeln nur sogenanntes „überwachtes Lernen“.

- 8 -

Was ist Klassifikation? Diese Klassifikationsregeln sollen möglichst

automatisch

genau

schnell

verständlich

sein.

- 9 -

Wofür ist Klassifikation nützlich?

Prognostische Modelle in der Medizin:

Hat diese Person eine bestimmte Krankheit?

Marketing:

Sollen wir dieser Person eine bestimmte Werbung schicken oder zeigen?

Kredit-Scoring: Sollen wir dieser Person einen Kredit geben?

Automatische Kategorisierung von Bilddaten:

Ist auf diesem Bild eine kranke Zelle?

Textkategorisierung: Ist diese Mail Spam?

Schrifterkennnung: Was steht denn da auf dem Briefumschlag?

Spracherkennung: Jeder liebt sprachgesteuerte Telefonmenüs!

Und noch vieles mehr!

- 10 -

Inhalte

A: Klassifikationsverfahren und ihr Verhalten bei Big Data Datenunabhängige Verfahren

Bayes-Verfahren (Näherungen: kNN, naive Bayes)

Diskriminanzanalyse (LDA, QDA, RDA)

Logistische Regression

Support Vector Machine (SVM)

Entscheidungsbäume

Random Forest (Bagging)

Boosting (ADA-, Gradient-)

Neuronale Netze

B: Variablenselektion und Dimensionsreduktion DiSCo (Different Subspace Classfication)

allgemeine Variablenselektion

Fisher Diskriminanzanalyse

OSP (Optimal Separation Projection)

allgemeine Dimensionsreduktion

- 11 -

C: Evaluationsmethoden Theorie der Qualitätsmaße und dazugehörige Tests

Resampling Methode

Konfusionsmaße

Interpretation

Datencharakterisierung

CRISP Methode

D: Erweiterungen von einfachen Klassifikationsmethoden Tuning von Verfahrensparametern

lokale Modelle (Lokalisierung von globalen Methoden)

- 12 -

Organisation, Voraussetzungen und Übungen

Vorlesung:

Skript vorhanden

Voraussetzungen:

Diplom- / Bachelor- / Master-Studiengänge sind alle ok

VMR / Analysis

Lineare Modelle

R programmieren können

Übungen:

Wöchentlich 2 Stunden und Gruppenabgaben

Mischung aus theoretischen Aufgaben und Praxis in R

- 13 -

Vorlesung „Musikdatenanalyse“

Prof. Dr. Claus Weihs

Sommersemester 2016 !!!

Vorlesung und Übungen (2V + 1Ü)

Fakultät Statistik, Fakultät Informatik, Institut für Musik und

Musikwissenschaft, Fakultät für Elektrotechnik und Informa-

tionstechnik (RUB)

Buch: Music Data Analysis; 25 Autoren (erscheint Herbst 2016!)

- 14 -

Gliederung

1. Einführung, Das Music-Signal I (Weihs, Ebeling)

2. Das Music-Signal II; Musikalische Strukturen (Ebeling)

3. Digitale Signal-Verarbeitung I (Martin)

4. Digitale Signal-Verarbeitung II, Signal basierte Merkmale (Martin, Nagathil)

5. Digitale Darstellung von Musik, Weitere Musikdaten (Rudolph, Vatolkin)

6. Statistik in der Musik (Weihs)

7. Unüberwachtes Lernen (Weihs)

8. Überwachte Klassifikation (Weihs)

9. Bewertung von Modellen (Weihs)

10. Merkmalsbearbeitung (Vatolkin)

11. Merkmalsauswahl (Vatolkin)

12. Transkription (Vernotung) (Ligges)

13. Segmentierung (Ligges)

14. Instrumentenerkennung, Rückschau (Weihs)

- 15 -

Eine Woche als Block (8-9 Schulstunden pro Tag mit Präsenzübungen)

Termin: 26.9. - 30.9.2016, Raum: TU Dortmund, CDI 121

Block-Aufteilung:

1. Tag – Einführung, Musik: 1, 2;

2. Tag – Technische Grundlagen: 3, 4, 5;

3. Tag – Statistische Grundlagen: 6, 7, 8;

4. Tag – Modellauswahl: 9, 10, 11;

5. Tag – Anwendungen, Abschluss: 12, 13, 14.

Alle Beispiele und Präsenzübungen aus der Musikdatenanalyse.

Voraussetzungen: Mathematik-Grundlagen

Teilnehmerbeschränkung: max. 30 Teilnehmer (wg. Computerarbeitsplätzen)

Studierende im Bachelor und im Master willkommen!

- 16 -

Die (Lean) Six Sigma Methode

Prof. Dr. C. Weihs

Winter 2016/17 (2V + 1Ü)

für Maschinenbau und Statistik

Analyze Control Improve Measure Define

- 17 -

Übersicht: DMAIC

1. Einführung in Lean Six Sigma

2. Define: Projektdefinition & Prozessverständnis

3. Measure: Prozessverhalten dokumentieren

4. Analyze: Ist-Analyse – Prozessmodell erstellen

5. Improve: Lösungen finden und bewerten

6. Control: Umsetzen der besten Lösung

Praxisprojekt für Green-Belt maximal für die 10 Besten der Klausur: Master Black Belt: Dr. Dietmar Stemann (Statistiker)

- 18 -

Definition: Lean Six Sigma

Lean Six Sigma ist eine anerkannte Managementmethode, die Unternehmen

hilft, ihre Produkte und Leistungen in nahezu fehlerfreier Qualität anzubieten

und damit die Anforderungen des Kunden vollständig und profitabel zu erfül-

len.

• Die zu erreichende Qualität von Prozessen und/oder Produkten wird zu

Projektbeginn über messbare Kennzahlen definiert.

• Der Erfolg ist schon während der Projektphasen messbar.

• Die messbare Realisierung der Verbesserung ist statistisch abgesi-

chert und nachhaltig nachgewiesen am Ende des Projektes.

• Die Orientierung auf Daten, Fakten und Kennzahlen, weg vom reinen

Bauchgefühl!

• Die hohe Erfolgsquote der Projekte durch Coaching von erfahrenem

Lean Six Sigma Master Black Belts (mit Branchenerfahrung).

• Die Nachhaltigkeit nach Projektende durch Messung der relevanten sta-

tistischen Kennzahlen

- 19 -

Statistische Methoden

Grundlagen (Measure)

Deskription (Grafiken, Ishikawa-Diagramm)

Regression und Tests (Konfidenzintervall)

Charakterisierung vorhandener Daten (Measure)

Messsystemanalyse (Varianzanalyse; Kontingenzanalyse)

Prozessfähigkeitsindizes

Kontrollkarten

Erhebung neuer Daten (Analyze)

Fallzahlplanung

Statistische Versuchsplanung

Voraussetzungen: Studierende im Bachelor und Master willkommen