Einführung in die Informatik: Systeme und...

20
LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DATABASE SYSTEMS GROUP DEPARTMENT INSTITUTE FOR INFORMATICS Kapitel 4: Data Mining Skript zur Vorlesung: Einführung in die Informatik: Systeme und Anwendungen Sommersemester 2018 Vorlesung : Prof. Dr. Christian Böhm Übungen : Dominik Mautz Skript © Christian Böhm http://dmm.dbs.ifi.lmu.de/infonf

Transcript of Einführung in die Informatik: Systeme und...

Page 1: Einführung in die Informatik: Systeme und Anwendungendmm.dbs.ifi.lmu.de/content/lehre/SS18/infonf/skript/InfoNF_04_Teil01.pdf · DATABASE SYSTEMS GROUP Einführung in die Informatik:

LUDWIG-MAXIMILIANS-UNIVERSITYMUNICH

DATABASESYSTEMSGROUP

DEPARTMENTINSTITUTE FORINFORMATICS

Kapitel 4: Data Mining

Skript zur Vorlesung:

Einführung in die Informatik: Systeme und AnwendungenSommersemester 2018

Vorlesung: Prof. Dr. Christian Böhm

Übungen: Dominik Mautz

Skript © Christian Böhm

http://dmm.dbs.ifi.lmu.de/infonf

Page 2: Einführung in die Informatik: Systeme und Anwendungendmm.dbs.ifi.lmu.de/content/lehre/SS18/infonf/skript/InfoNF_04_Teil01.pdf · DATABASE SYSTEMS GROUP Einführung in die Informatik:

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2018

Überblick

4.1 Einleitung

4.2 Clustering

Kapitel 4: Data Mining

2

Page 3: Einführung in die Informatik: Systeme und Anwendungendmm.dbs.ifi.lmu.de/content/lehre/SS18/infonf/skript/InfoNF_04_Teil01.pdf · DATABASE SYSTEMS GROUP Einführung in die Informatik:

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2018

Motivation

Kapitel 4: Data Mining

Telefongesellschaft

Astronomie

Kreditkarten Scanner-Kassen

• Riesige Datenmengen werden in Datenbanken gesammelt

• Analysen können nicht mehr manuell durchgeführt werden

Datenbanken

3

Page 4: Einführung in die Informatik: Systeme und Anwendungendmm.dbs.ifi.lmu.de/content/lehre/SS18/infonf/skript/InfoNF_04_Teil01.pdf · DATABASE SYSTEMS GROUP Einführung in die Informatik:

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2018

Definition KDD

• Knowledge Discovery in Databases (KDD) ist der Prozess der

(semi-) automatischen Extraktion von Wissen aus Datenbanken,

das

• gültig

• bisher unbekannt

• und potentiell nützlich ist.

• Bemerkungen:

• (semi-) automatisch: im Unterschied zu manueller Analyse.

Häufig ist trotzdem Interaktion mit dem Benutzer nötig.

• gültig: im statistischen Sinn.

• bisher unbekannt: bisher nicht explizit, kein „Allgemeinwissen“.

• potentiell nützlich: für eine gegebene Anwendung.

Kapitel 4: Data Mining

4

Page 5: Einführung in die Informatik: Systeme und Anwendungendmm.dbs.ifi.lmu.de/content/lehre/SS18/infonf/skript/InfoNF_04_Teil01.pdf · DATABASE SYSTEMS GROUP Einführung in die Informatik:

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2018

Der KDD-Prozess (Modell)

Kapitel 4: Data Mining

Vorverar-

beitung

Trans-

formation

Datenbank

Fokussieren Data

MiningEvaluation

Muster Wissen

Prozessmodell nach Fayyad, Piatetsky-Shapiro & Smyth

Fok

uss

iere

n:

•B

esch

affu

ng d

er D

aten

•V

erw

altu

ng

(F

ile/

DB

)

•S

elek

tion r

elev

ante

r D

aten

Vorv

erar

bei

tun

g:

•In

teg

rati

on v

on D

aten

aus

unte

rsch

iedli

chen

Quel

len

•V

erv

oll

stän

dig

ung

•K

onsi

sten

zprü

fung

Tra

nsf

orm

atio

n•

Dis

kre

tisi

erung

num

eri-

sch

er M

erkm

ale

•A

ble

itung n

euer

Mer

km

ale

•S

elek

tion r

elev

ante

r M

erkm

.

Dat

a M

inin

g•

Gen

erie

run

g d

er M

ust

er

bzw

. M

od

elle

Eval

uat

ion

•B

ewer

tung d

er I

nte

ress

ant-

hei

tdurc

h d

en B

enutz

er

•V

alid

ieru

ng:

Sta

tist

isch

e

Prü

fun

g d

er M

odel

le

5

Page 6: Einführung in die Informatik: Systeme und Anwendungendmm.dbs.ifi.lmu.de/content/lehre/SS18/infonf/skript/InfoNF_04_Teil01.pdf · DATABASE SYSTEMS GROUP Einführung in die Informatik:

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2018

Objekt-Merkmale (Feature)

Kapitel 4: Data Mining

• Oft sind die betrachteten Objekte komplex

• Eine Aufgabe des KDD-Experten ist dann, geeignete Merkmale

(Features) zu definieren bzw. auszuwählen, die für die Unterscheidung

(Klassifikation, Ähnlichkeit) der Objekte relevant sind.

Beispiel: CAD-Zeichnungen:

Mögliche Merkmale:

• Höhe h

• Breite w

• Kurvatur-Parameter

(a,b,c)ax2+bx+c

6

Page 7: Einführung in die Informatik: Systeme und Anwendungendmm.dbs.ifi.lmu.de/content/lehre/SS18/infonf/skript/InfoNF_04_Teil01.pdf · DATABASE SYSTEMS GROUP Einführung in die Informatik:

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2018

Feature-Vektoren

Kapitel 4: Data Mining

(h, w, a, b, c)

ax2+bx+c

h

wh

wa

bc

Objekt-Raum Merkmals-Raum

• Im Kontext von statistischen Betrachtungen werden die Merkmale

häufig auch als Variablen bezeichnet

• Die ausgewählten Merkmale werden zu Merkmals-Vektoren (Feature

Vector) zusammengefasst

• Der Merkmalsraum ist häufig hochdimensional (im Beispiel 5-dim.)

7

Page 8: Einführung in die Informatik: Systeme und Anwendungendmm.dbs.ifi.lmu.de/content/lehre/SS18/infonf/skript/InfoNF_04_Teil01.pdf · DATABASE SYSTEMS GROUP Einführung in die Informatik:

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2018

Feature-Vektoren (weitere Beispiele)

Kapitel 4: Data Mining

Bilddatenbanken:

Farbhistogramme

Farbe

Häu

figk

eit

Gen-Datenbanken:

Expressionslevel

Text-Datenbanken:

Begriffs-Häufigkeiten

Der Feature-Ansatz ermöglicht einheitliche Behandlung von Objekten

verschiedenster Anwendungsklassen

Data 25

Mining 15

Feature 12

Object 7

...

8

Page 9: Einführung in die Informatik: Systeme und Anwendungendmm.dbs.ifi.lmu.de/content/lehre/SS18/infonf/skript/InfoNF_04_Teil01.pdf · DATABASE SYSTEMS GROUP Einführung in die Informatik:

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2018

Feature: verschiedene Kategorien

Kapitel 4: Data Mining

Nominal (kategorisch)

Charakteristik:

Nur feststellbar, ob der Wert gleich oder verschieden ist. Keine Richtung (besser, schlechter) und kein Abstand.Merkmale mit nur zwei Werten nennt man dichotom.

Beispiele:

Geschlecht (dichotom)AugenfarbeGesund/krank (dichotom)

Ordinal

Charakteristik:

Es existiert eine Ordnungsrelation (besser/schlechter) zwischen den Kategorien, aber kein einheitlicher Abstand.

Beispiele:

Schulnote (metrisch?)GüteklasseAltersklasse

Metrisch

Charakteristik:

Sowohl Differenzen als auch Verhältnisse zwischen den Werten sind aussagekräftig. Die Werte können diskret oder stetig sein.

Beispiele:

Gewicht (stetig)Verkaufszahl (diskret)Alter (stetig oder diskret)

9

Page 10: Einführung in die Informatik: Systeme und Anwendungendmm.dbs.ifi.lmu.de/content/lehre/SS18/infonf/skript/InfoNF_04_Teil01.pdf · DATABASE SYSTEMS GROUP Einführung in die Informatik:

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2018

Ähnlichkeit von Objekten

Kapitel 4: Data Mining

• Spezifiziere Anfrage-Objekt qDB und…

– … suche ähnliche Objekte – Range-Query (Radius e)

RQ(q,e) = {o DB | (q,o) e }

– … suche die k ähnlichsten Objekte – Nearest Neighbor Query

NN(q,k) DB mit k Objekten, sodass

oNN(q,k), pDB\NN(q,k) : (q,o) (q,p)

10

alternative Schreibweise

für Mengendifferenz:

A\B = A – B

Page 11: Einführung in die Informatik: Systeme und Anwendungendmm.dbs.ifi.lmu.de/content/lehre/SS18/infonf/skript/InfoNF_04_Teil01.pdf · DATABASE SYSTEMS GROUP Einführung in die Informatik:

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2018

Ähnlichkeitsmaße im Feature-Raum

Kapitel 4: Data Mining

Euklidische Norm (L2):

1(x,y) = ((x1-y1)2+(x2-y2)

2+...)1/2

yx

Manhattan-Norm (L1):

2(x,y) = |x1-y1|+|x2-y2|+...

yx

Maximums-Norm (L):

(x,y) = max{|x1-y1|, |x2-y2|,...}

xy

Die Unähnlichkeitender einzelnen Merkmalewerden direkt addiert

Die Unähnlichkeit desam wenigsten ähnlichenMerkmals zählt

Abstand in Euklidischen Raum(natürliche Distanz)

Verallgemeinerung Lp-Abstandsmaß:

p(x,y) = (|x1-y1|p + |x2-y2|

p + ...)1/p

11

Page 12: Einführung in die Informatik: Systeme und Anwendungendmm.dbs.ifi.lmu.de/content/lehre/SS18/infonf/skript/InfoNF_04_Teil01.pdf · DATABASE SYSTEMS GROUP Einführung in die Informatik:

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2018

Gewichtete Ähnlichkeitsmaße

• Viele Varianten gewichten verschiedene Merkmale unterschiedlich

stark.

Kapitel 4: Data Mining

p

d

i

p

iiiwpyxwyx

=

-=

1

,),(

y

x

)()(),(1

yxyxyxT

--=-

y

x

Gewichtete Euklidische Distanz Mahalanobis Distanz

= Kovarianz-Matrix

12

Page 13: Einführung in die Informatik: Systeme und Anwendungendmm.dbs.ifi.lmu.de/content/lehre/SS18/infonf/skript/InfoNF_04_Teil01.pdf · DATABASE SYSTEMS GROUP Einführung in die Informatik:

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2018

Kategorien von Data Mining

• Wichtigste Data-Mining-Verfahren auf Merkmals-Vektoren:

– Clustering

– Outlier Detection

– Klassifikation

– Regression

• Supervised: In Trainingsphase wird eine Funktion gelernt, die in der Testphase

angewandt wird.

• Unsupervised: Es gibt keine Trainingsphase. Die Methode findet Muster, die

einem bestimmten Modell entsprechen.

• Darüber hinaus gibt es zahlreiche Verfahren, die nicht auf

Merkmalsvektoren, sondern direkt auf Texten, Mengen, Graphen

usw. arbeiten.

Kapitel 4: Data Mining

normalerweise unsupervised

normalerweise supervised

13

Page 14: Einführung in die Informatik: Systeme und Anwendungendmm.dbs.ifi.lmu.de/content/lehre/SS18/infonf/skript/InfoNF_04_Teil01.pdf · DATABASE SYSTEMS GROUP Einführung in die Informatik:

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2018

Clustering

Kapitel 4: Data Mining

Cluster 1: KlammernCluster 2: Nägel

Ein Grundmodell des Clustering ist:

Zerlegung (Partitionierung) einer Menge von Objekten (bzw. Feature-

Vektoren) in Teilmengen (Cluster), so dass• die Ähnlichkeit der Objekte innerhalb eines Clusters maximiert

• die Ähnlichkeit der Objekte verschiedener Cluster minimiert wird

Idee: Die verschiedenen Cluster repräsentieren meist unterschiedliche Klassen von

Objekten; bei evtl. unbek. Anzahl und Bedeutung der Klassen

14

Page 15: Einführung in die Informatik: Systeme und Anwendungendmm.dbs.ifi.lmu.de/content/lehre/SS18/infonf/skript/InfoNF_04_Teil01.pdf · DATABASE SYSTEMS GROUP Einführung in die Informatik:

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2018

Anwendung: Thematische Karten

Kapitel 4: Data Mining

Aufnahme der Erdoberflächein 5 verschiedenen Spektren

Pixel (x1,y1)

Pixel (x2,y2)

Wert in Band 1

Wer

t in

Ban

d 2

Wert in Band 1

Wer

t in

Ban

d 2

Cluster-Analyse

Rücktransformation

in xy-Koordinaten

Farbcodierung nach

Cluster-Zugehörigkeit

15

Page 16: Einführung in die Informatik: Systeme und Anwendungendmm.dbs.ifi.lmu.de/content/lehre/SS18/infonf/skript/InfoNF_04_Teil01.pdf · DATABASE SYSTEMS GROUP Einführung in die Informatik:

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2018

Outlier Detection

Kapitel 4: Data Mining

Datenfehler?

Betrug?

Outlier Detection bedeutet:

Ermittlung von untypischen Daten

Anwendungen:

• Entdeckung von Missbrauch etwa bei • Kreditkarten

• Telekommunikation

• Datenbereinigung (Messfehler)

16

Page 17: Einführung in die Informatik: Systeme und Anwendungendmm.dbs.ifi.lmu.de/content/lehre/SS18/infonf/skript/InfoNF_04_Teil01.pdf · DATABASE SYSTEMS GROUP Einführung in die Informatik:

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2018

Klassifikation

Kapitel 4: Data Mining

SchraubenNägelKlammern

Aufgabe:

Lerne aus den bereits klassifizierten Trainingsdaten die Regeln, um neue

Objekte nur aufgrund der Merkmale zu klassifizieren

Das Ergebnismerkmal (Klassenvariable) ist nominal (kategorisch)

Trainings-daten

Neue Objekte

17

Page 18: Einführung in die Informatik: Systeme und Anwendungendmm.dbs.ifi.lmu.de/content/lehre/SS18/infonf/skript/InfoNF_04_Teil01.pdf · DATABASE SYSTEMS GROUP Einführung in die Informatik:

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2018

Anwendung: Neugeborenen-Screening

Kapitel 4: Data Mining

Blutprobe des

Neugeborenen

Massenspektrometrie Metabolitenspektrum

Datenbank

14 analysierte Aminosäuren:

alanine phenylalanine

arginine pyroglutamate

argininosuccinate serine

citrulline tyrosine

glutamate valine

glycine leuzine+isoleuzine

methionine ornitine

18

Page 19: Einführung in die Informatik: Systeme und Anwendungendmm.dbs.ifi.lmu.de/content/lehre/SS18/infonf/skript/InfoNF_04_Teil01.pdf · DATABASE SYSTEMS GROUP Einführung in die Informatik:

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2018

Anwendung: Neugeborenen-Screening

Kapitel 4: Data Mining

Ergebnis:• Neuer diagnostischer Test

• Glutamin als bisher

unbekannter Marker

19

Page 20: Einführung in die Informatik: Systeme und Anwendungendmm.dbs.ifi.lmu.de/content/lehre/SS18/infonf/skript/InfoNF_04_Teil01.pdf · DATABASE SYSTEMS GROUP Einführung in die Informatik:

DATABASESYSTEMSGROUP

Einführung in die Informatik: Systeme und Anwendungen – SoSe 2018

Regression

Kapitel 4: Data Mining

0

5

Grad der Erkrankung

Neue Objekte

Aufgabe:

Ähnlich zur Klassifikation, aber das Ergebnis-Merkmal, das gelernt bzw.

geschätzt werden soll, ist metrisch.

20