Download - statistik Treiberanalyse mit Entscheidungsbäumen R - ifad.de · 66 planung&analyse 5/2018 termine&tipps statistik Treiber des Erfolgs bei der Fußball-WM 2018. Es wurden die auf

Transcript
Page 1: statistik Treiberanalyse mit Entscheidungsbäumen R - ifad.de · 66 planung&analyse 5/2018 termine&tipps statistik Treiber des Erfolgs bei der Fußball-WM 2018. Es wurden die auf

planung&analyse 5/201866

termine&tipps statistik

Treiber des Erfolgs bei der Fußball-WM 2018. Eswurden die auf kicker.de zur Verfügung stehenden An-gaben zu Ballbesitz (in %), Anzahl Torschüsse, Pass-quote (in %), Zweikampfquote (in %) und Anzahl Stan-dards (= Summe aus Anzahl Foul-/Handspiele des Geg-ners und Anzahl Ecken) der 48 Spiele der Gruppenphaseder Fußball-WM 2018 erfasst. Beantwortet werden solldie Frage, welcher von diesen der wichtigste Faktor füreinen Sieg ist.

Ein mögliches Trennungskriterium zur Induktion ei-nes Entscheidungsbaums ist der Gini-Index. Er misst die„Unreinheit“ eines Knotens. Allgemein ist er für m Kate-gorien der abhängigen Variable definiert durchGk = p1 · (1 - p1) + p2 · (1 - p2) + ··· + pm · (1 - pm) mit p = Anteil einer Kategorie in einem Knoten k.

Bei einer Gleichverteilung über die Kategoriennimmt der Gini-Index mit 0,5 sein Maximum an. Er istumso geringer, je eindeutiger eine Kategorie in einemKnoten ausgeprägt ist. Über alle Spiele der Gruppen-phase hinweg verließen 41 % aller Teams den Platz alsSieger. Insofern beträgt er im ersten Knoten des Ent-scheidungsbaums in der Abbildung G1 = 0,41 · (1 - 0,41)+ 0,59 · (1 - 0,59) = 0,48.

Es wird jeweils diejenige Variable für die Trennungausgewählt, mit der der Gini-Index am meisten verrin-gert werden kann. In dem Beispiel ist dies als Erstes dieZweikampfquote. Von den Teams, die mindestens 52 %der Zweikämpfe gewannen, siegten 67 %. Von den Teamsmit einer geringeren Zweikampfquote siegten nur 27 %.Im zweiten Knoten ist somit G2 = 0,27 · (1 - 0,27) + 0,73 ·(1 - 0,73) = 0,39 und im dritten G3 = 0,67 · (1 - 0,67) +0,33 · (1 - 0,33) = 0,44. Damit verbessert sich der Gini-Index durch diesen Split um G1 - (Anteil des Knotens 2am Knoten 1) · G2 - (Anteil des Knotens 3 am Knoten 1) ·G3 = 0,48 - 0,66 · 0,39 - 0,34 · 0,44 = 0,07. Da Variablen ineinem Entscheidungsbaum mehr als einmal als Tren-nungsvariable genutzt werden können (siehe Zwei-kampfquote), ist die Bedeutung eines Treibers durch dieSumme aller der durch diesen bedingten Verbesserun-gen bestimmt.

andom Forests sind nicht nur zur Prognose,sondern zugleich zur Analyse der Treibereiner abhängigen Variable einsetzbar. Ge-genüber vielen anderen Verfahren besitzensie den Vorteil, dass mühelos Treiber mit

unterschiedlichen Skalenniveaus untersucht werdenkönnen und keine Annahme über die Form des Zu-sammenhangs zur abhängigen Variable getroffen wird.Zudem stellt Multikollinearität für sie kein Problemdar. Je nach Skalenniveau der abhängigen Variable exis-tieren mehrere Möglichkeiten zur Messung der Bedeu-tung der Treiber, von denen eine anhand eines aktuellenBeispiels näher vorgestellt wird.

Analog zu der Idee, eine Prognose nicht auf eineneinzigen Baum zu stützen, wird mittels Random Forestein Ensemble an Entscheidungsbäumen erzeugt.Schließlich entspricht die Bedeutung eines Treibers demMittelwert der Summe der Verbesserungen über alleBäume. Bei 1.000 Bäumen betragen die auf eine Summevon 100 % normierten Wichtigkeiten der Treiber füreinen Sieg: Zweikampfquote = 26 %, Anzahl Torschüs-se = 21 %, Anzahl Standards = 19 %, Ballbesitz = 18 %,Passquote = 16 %.

Das Ergebnis ist jedoch nicht eindeutig. Es hängt einwenig ab von der Startlösung und ein wenig mehr vonder vorgegebenen Anzahl an Variablen (hier: 2), die beijedem Split zufällig als Kandidaten für die Trennungs-variable ausgewählt werden. Falls die Kandidaten unter-schiedliche Skalenniveaus besitzen, werden zudem diemit mehr Kategorien als Trennungsvariable bevorzugt.Vor diesem Hintergrund ist es empfehlenswerter, dasErgebnis nur als Rangfolge zu interpretieren.

Alternative Messungen der Bedeutung von Treibern.Für jeden mittels Random Forest erzeugten Baum wirdgenerell nur ein Teil des untersuchten Datensatzes ver-wendet. Die Trefferquote für den anderen Teil ist Aus-gangspunkt einer alternativen Messung der Bedeutungeines Treibers einer kategorialen Variable. Diese wirdmit der Trefferquote verglichen, die sich ergibt, wenn dieAusprägungen des betrachteten Treibers zufällig ver-tauscht werden. Verringert sie sich kaum, sind die Aus-prägungen des Treibers im Grunde egal und seine Be-deutung dementsprechend gering. Verringert sich dieTrefferquote sehr, besitzt der Treiber eine hohe Bedeu-tung. Die endgültige Bedeutung entspricht dann demMittelwert der Verschlechterungen über alle Bäume.

Bei metrischen abhängigen Variablen können dieAnsätze ebenso genutzt werden, die verwendeten Maßebasieren dann auf den Residuen.

In Ausgabe 6/2018: Kriterien der Prognosegüte

Treiberanalyse mitEntscheidungsbäumen

R Knoten 1 (100%)

Sieg 0,41

Knoten 2 (66%)

Sieg 0,27

Knoten 4 (53%)

Sieg 0,20

Knoten 5 (12%)

Sieg 0,58

Knoten 6 (20%)

Sieg 0,53

Knoten 8 (12%)

Sieg 0,67

Knoten 9 (7%)

Sieg 0,29

Knoten 7 (15%)

Sieg 0,86

Knoten 3 (34%)

Sieg 0,67

Zweikampfquote <52

Zweikampf-quote <54

Passquote <86 Passquote 86

Standards <22

Standards 22

Zweikampfquote 52

Zweikampf-quote 54

Abbildung: Ausschnitt aus einem mit CART erzeugten Ent-

scheidungsbaum

Johannes Lüken, Diplom-Psychologe, ist Leiter des Bereichs Data Sciencesbei IfaD.

[email protected]

Prof. Dr. Heiko Schimmel-pfennig, Diplom-Kauf-mann, ist Projektleiter fürData Sciences bei IfaD.

[email protected]

Breiman, L.: Manual onSetting Up, Using, andUnderstanding RandomForests V3.1, 2002,http://oz.berkeley.edu/users/breiman/Using_random_forests_V3.1.pdf

Eberl, M. et al.: Treiber-analysen im Fitness-Check. In: planung&analyse 6/2015,S. 39-43

Grömping, U.: VariableImportance Assessmentin Regression: LinearRegression versusRandom Forest. In: TheAmerican Statistician,Nr. 4/2009, S. 308-319

Literatur