Proseminar - Data Mining - TUM€¦ · Manche Bücher elektronisch über OPAC-Katalog abrufbar...

16
Technische Universität München Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2014 SCCS: Proseminar - Data Mining , SS 2014 1

Transcript of Proseminar - Data Mining - TUM€¦ · Manche Bücher elektronisch über OPAC-Katalog abrufbar...

  • Technische Universität München

    Proseminar - Data Mining

    SCCS, Fakultät für Informatik

    Technische Universität München

    SS 2014

    SCCS: Proseminar - Data Mining

    , SS 2014 1

  • Technische Universität München

    Data Mining: Beispiele (1)

    • Hausnummererkennung (Klassifikation)

    Source: http://arxiv.org/abs/1312.6082

    SCCS: Proseminar - Data Mining

    , SS 2014 2

    http://arxiv.org/abs/1312.6082

  • Technische Universität München

    Data Mining: Beispiele (2)

    • Image Segmentation (Clustering)

    SCCS: Proseminar - Data Mining

    , SS 2014 3

  • Technische Universität München

    Data Mining: Beispiele (3)

    • Ähnliche Gene (Clustering)

    [Hastie et al.]

    SCCS: Proseminar - Data Mining

    , SS 2014 4

  • Technische Universität München

    Data Mining: Beispiele (4)

    • Vorausschauender Versand (Klassifikation)

    Source: http://1.usa.gov/19X75t9

    SCCS: Proseminar - Data Mining

    , SS 2014 5

    http://1.usa.gov/19X75t9

  • Technische Universität München

    Warum Data Mining?

    • “Data Scientist: The Sexiest Job of the 21st Century” (HarvardBusiness Review)

    • “We are drowning in information and starving for knowledge.”(Rutherford D. Roger)

    • “The future belongs to the companies and people that turn datainto products.” (Mike Loukides, O’Reilly)

    • Rank 5 in Computerworld’s “Top IT skills wanted for 2012”• Rank 1 in Computerworld’s “IT skills that employers can’t say no

    to”• http://www.itjobswatch.co.uk/jobs/uk/datascientist.do• http://www.itjobswatch.co.uk/jobs/uk/softwaredeveloper.do

    SCCS: Proseminar - Data Mining

    , SS 2014 6

    http://www.itjobswatch.co.uk/jobs/uk/data scientist.dohttp://www.itjobswatch.co.uk/jobs/uk/software developer.dohttp://www.itjobswatch.co.uk/jobs/uk/software developer.do

  • Technische Universität München

    Finding Data Science Unicorn

    SCCS: Proseminar - Data Mining

    , SS 2014 7

  • Technische Universität München

    Data Mining Pipeline

     

     

     

       

    Planung Aufbereitung Modellbildung Auswertung

    Wir wollen nützliches Wissen aus Daten extrahieren• Planung. Finden des Problems. Was soll gemacht werden?

    Dafür nötige Daten sammeln.• Aufbereitung. Rohdaten (unvollständig, redundant,

    verschiedene Formate, Einheiten, etc.) werden in einebrauchbare Form gebracht.

    • Modellbildung. Daten werden mit verschiedenen Methoden(Regression, Klassifikation, Clustering, etc.) analysiert.

    • Auswertung. Interpretation und Auswertung der Ergebnisse.

    SCCS: Proseminar - Data Mining

    , SS 2014 8

  • Technische Universität München

    Themen I

    • Überblick• Genauere Darstellung der Data Mining Pipeline• Beispiele wo Data Mining verwendet wird

    • Einsatz von Data Mining in Industrie• Software: Matlab und R• Software: Python• Software: RapidMiner• Aufbereitung von Daten, Pre-Processing• Hauptkomponentenanalyse• Lineare Modelle für Regression

    • Was sind lineare Modelle? Wieso lineare Modelle? Welche?• Was ist Regression? Beispiele.

    SCCS: Proseminar - Data Mining

    , SS 2014 9

  • Technische Universität München

    Themen II

    • Lineare Modelle und Logistische Regression für Klassifikation• Klassifikation mit Thresholding• Vergleich mit z.B. k -nearest Neighbor

    • Spam Filtering with Naive Bayes Classifier• Entscheidungsbäume

    • Merkmale in Reihenfolge der Wichtigkeit überprüfen• Es entsteht ein Baum

    • Neuronale Netze I: Grundlagen• Neuronale Netze II: Deep Learning

    SCCS: Proseminar - Data Mining

    , SS 2014 10

  • Technische Universität München

    Themen III

    • Association Rules• Finde gemeinsame Belegung von Variablen die möglichst oft

    in Datenbank auftritt• Z.B.: Bier und Windeln werden of zusammen gekauft

    • Clustering• Finde Struktur in Daten, kein “outcome” vorhanden• k -means, mixture of gaussians

    • Dichteschätzung• Schätzen der Dichte P eines gegebenen Datensatzes

    X = {x1, . . . , xM}.• Histogram, Kerndichteschätzer, etc.

    • Reinforcement Learning• Das System bekommt sofort Feedback und reagiert darauf• Welche Verfahren gibt es? Anwendungsbeispiele?

    SCCS: Proseminar - Data Mining

    , SS 2014 11

  • Technische Universität München

    Themen IV

    • Ensemble Learning• Verbinde mehrere verschiedene Algorithmen• Gewichte einzelne Antworten entsprechend

    • AdaBoost• Kann als Ensemble Methode angesehen werden• Verwendet optimale Gewicht (bzgl. exp. loss)

    • Überblick: Data at Scale• Wie große Datenmengen speichern und verwalten? Welcher

    Einsatzbereich?• Hadoop, Cassandra, BigTable, ...

    • Big Learning• Stochastic Gradient Descent• Map-Reduce Parallelization

    • Recommender Systems with Colaborative Filtering

    SCCS: Proseminar - Data Mining

    , SS 2014 12

  • Technische Universität München

    Themen V

    • Natural Language Processing• Latent Semantic Indexing• Latent Dirichlet allocation

    • Sequential Data• Data Mining für soziale Netzwerke

    SCCS: Proseminar - Data Mining

    , SS 2014 13

  • Technische Universität München

    Tipps zur Recherche

    1. Google Scholar und Google (filetype:pdf)2. eAccess Zugriff mit MyTUM Account

    http://www.ub.tum.de/eaccess#Bookmarklet%20f%C3%BCr%

    20eAccess

    Funktioniert für Springer, ACM, IEEE (nicht Computer Society!),etc.

    3. Zeitschriften/Proceedings über EZB suchenhttp://www.ub.tum.de/ejournals

    4. Manche Bücher elektronisch über OPAC-Katalog abrufbar(„Volltext“ Button)

    SCCS: Proseminar - Data Mining

    , SS 2014 14

    http://www.ub.tum.de/eaccess#Bookmarklet%20f%C3%BCr%20eAccesshttp://www.ub.tum.de/eaccess#Bookmarklet%20f%C3%BCr%20eAccesshttp://www.ub.tum.de/ejournals

  • Technische Universität München

    Organisatorisches I

    • Jedem Teilnehmer wird ein Betreuer zugewiesen• Vortrag: ca. 20min + Diskussion• Ausarbeitung: 5 Seiten (LATEX) im IEEE Format (Webseite), excl.

    Quellenangaben.• Wichtige Termine:

    • Anmeldung (3 Themen) bis 31.1, Email mit Betreff“Proseminar Data Mining - Anmeldung”

    • Themenzuteilung: 3.2, Rückmeldung bis 24.2• Vortragstermin wird (geblockt) zugeteilt, voraussichtlich 1./2.

    Juni Woche• 4 Wochen vor dem Vortrag - ein Entwurf der Ausarbeitung

    beim Betreuer einreichen (per Email)• 2 Wochen vor dem Vortrag - Folien beim Betreuer

    einreichen

    SCCS: Proseminar - Data Mining

    , SS 2014 15

  • Technische Universität München

    Organisatorisches II

    • Am Tag des Vortrages - Abgabe der fertigen Ausarbeitun• Webseite:

    http://www5.in.tum.de/wiki/index.php/Proseminar_Data_Mining_-_Summer_14

    oderhttp://www5.in.tum.de → Teaching → Summer 14 → Proseminar - Data Mining

    SCCS: Proseminar - Data Mining

    , SS 2014 16