EW Ausarbeitung Old

13
1. Zu welchen Folgen L von Beispielen aus AxB gibt es keinen Entscheidungsbaum H, so dass errorL(H) = 0? Wenn es widerspruchliche Beispiele in L gibt. Ein a element von A zeigt auf zwei verschiedene b. 2. Für welche Wahrscheinlichkeitsverteilungen für Lernbeispiele (Trainings- und Testbeispiele) ist der wahre Fehler stets größer 0. Für Mehrdeutigkeiten: Wenn A auf B und auf C abbildet. 3. Was kann man von einem Lernalgorithmus erwarten, der nach Möglichkeit zu jeder Liste L einen Entscheidungsbaum H mit errorL(H) = 0 erzeugt. Welche Methoden zur Vermeidung dieses Problems gibt es? Vermutlich overfitting, d.h. wahre Fehler viel höher als der empirische. Vermeidung → Pruning 4. Betrachten Sie eine Liste L von Trainingsbeispielen, welche gemäß eines Wahrscheinlichkeitsmaßes P aus einer Menge X x Y gezogen wurde. Was genau ist eine Hypothese und was ein Lernalgorithmus für dieses Lernproblem? Alternativ: Definieren Sie genau die Begriffe Hypothese und Lernalgorithmus. Hypothese : H: X → Y Zuweisung von Eingabebeispielen zu Ausgabebeispielen Lernalgorithmus : A: (X x Y)H Auswahl einer Hypothese aus einer Hypothesenklasse anhand von Trainingsbeispielen 5. Geben Sie die analytische Lösung für ein lineares Regressionsproblem mit MSE Fehlerkriterium an. Definieren Sie alle in der Formel verwendeten Symbole. w → Optimale Gewichte X → Input in Matrix-Form Y → Target Vektor 6. Geben Sie ein Beispiel für ein Klassifikationsproblem mit 2 Klassen und Trainingsbeispielen mit 2 Attributen, welches nicht von einem linearen Klassifikator jedoch von einem Neuronalen Netz bestehend aus Schwellwertgattern und einem hidden layer exakt gelöst werden kann. Zeigen Sie wie. XOR-Klassifizierung

description

Computational intelligence

Transcript of EW Ausarbeitung Old

  • 1. Zu welchen Folgen L von Beispielen aus AxB gibt es keinen Entscheidungsbaum H, so dass

    errorL(H) = 0?

    Wenn es widerspruchliche Beispiele in L gibt. Ein a element von A zeigt auf zwei verschiedene b.

    2. Fr welche Wahrscheinlichkeitsverteilungen fr Lernbeispiele (Trainings- und Testbeispiele) ist der

    wahre Fehler stets grer 0.

    Fr Mehrdeutigkeiten: Wenn A auf B und auf C abbildet.

    3. Was kann man von einem Lernalgorithmus erwarten, der nach Mglichkeit zu jeder Liste L einen

    Entscheidungsbaum H mit errorL(H) = 0 erzeugt. Welche Methoden zur Vermeidung dieses

    Problems gibt es?

    Vermutlich overfitting, d.h. wahre Fehler viel hher als der empirische. Vermeidung Pruning

    4. Betrachten Sie eine Liste L von Trainingsbeispielen, welche gem eines

    Wahrscheinlichkeitsmaes P aus einer Menge X x Y gezogen wurde. Was genau ist eine

    Hypothese und was ein Lernalgorithmus fr dieses Lernproblem?

    Alternativ: Definieren Sie genau die Begriffe Hypothese und Lernalgorithmus.

    Hypothese: H: X Y Zuweisung von Eingabebeispielen zu Ausgabebeispielen

    Lernalgorithmus: A: (X x Y) H Auswahl einer Hypothese aus einer Hypothesenklasse anhand von Trainingsbeispielen

    5. Geben Sie die analytische Lsung fr ein lineares Regressionsproblem mit MSE Fehlerkriterium an.

    Definieren Sie alle in der Formel verwendeten Symbole.

    w Optimale Gewichte X Input in Matrix-Form Y Target Vektor

    6. Geben Sie ein Beispiel fr ein Klassifikationsproblem mit 2 Klassen und Trainingsbeispielen mit 2

    Attributen, welches nicht von einem linearen Klassifikator jedoch von einem Neuronalen Netz

    bestehend aus Schwellwertgattern und einem hidden layer exakt gelst werden kann.

    Zeigen Sie wie.

    XOR-Klassifizierung

  • 7. Nennen Sie drei hufig verwendete Aktivierungsfunktionen. Mit welcher kann backprogation

    nicht durchgefhrt werden? Erklren Sie warum (2 Grnde)

    Voraussetzungen fr Backpropagation:

    Allgemeine feed-forward Architektur; Differenzierbare Aktivierungsfunktionen (e.g. sigmoide Gatter)

    Lineare Aktivierungsfunktion ja, da stetig ableitbar Sigmoide Funktion ja, da stetig ableitbar Schwellenwertfunktion nein, da nicht stetig und daher nicht ableitbar.

    8. Definieren Sie den Impulsterm bei gradient descent. Wozu wird der verwendet?

    Alternative Formulierung: Wozu dient der Impulsterm beim backprogation Algorithmus?

    Impulsterm = B (Walt Wuralt) Schnelleres Lernen auf flachen Plateaus

    Gewichtsnderungen werden verstrkt

    9. Beschreiben Sie k-fold Crossvalidation und im Speziellen Leave-One-Out Crossvalidation.

    Wann werden diese Methoden angewendet?

    Spezieller Fall: k = n (Anzahl der folds gleich Anzahl der Trainingsbeispiele)

    Leave-One-Out cross-validation jedes Beispiel wird einmal zum validieren benutzt.

  • 10. Weshalb mssen beim Nearest-neighbor-Algorithmus input Attribute geeignet skaliert werden?

    Geben Sie ein graphischen Beispiel, welches die Problematik veranschaulicht.

    11.

    12. Welche Probleme mit der Lernrate knnen bei backpropagation auftreten? Welche

    automatisierte Abhilfe gibt es?

    Bei zu groer Lernrate tritt Oszillation auf, globales Minimum kann bersprungen werden

    Bei zu kleiner Lernrate dauert die Iteration lange.

    Lsung: adaptive Lernrate mit Impulsterm

    13. Wodurch unterscheiden sich Modelle der Prdikatenlogik von Modellen der Aussagenlogik?

    Aussagenlogik: Wahrheit von Aussagen / Fakten

    Prdikatenlogik: Wahrheit von Beziehungen zwischen Objekten

    14. Nennen und definieren Sie drei Inferenzregeln der Aussagenlogik.

    1. Modus ponens: A => B; A; dann kann man B als gegeben annehmen.

    2. Alle logischen quivalenzen: A => B; B =>A; dann A B

    3. Und-Eliminierung: A und B. A alleine auch wahr.

  • 15. Wie wird fr fr Entscheidungsbume beim Lernalgorithmus C4.5 ausgewhlt, welches Attribut an

    einem Knoten abgefragt wird?

    Die Entropie wird berechnet.

    Allgemein: Attribut wird ausgewhlt, dass den meisten InformationGain hat.

    beim C4.5: Attribut, das den besten GainRatio hat.

    16. Was besagt das Resolutionstheorem der Aussagenlogik?

    Aussage ist unerfllbar, wenn Resolution zu leeren Menge fhrt.

    17. Aus welchem Grund teilt man einen bestehenden Datensatz in Trainings-, Test- und

    Validierungsdaten auf? Wozu wird jeder dieser Datenstze verwendet?

    Grund: um ein Trainieren (auswendig lernen) auf bestimmte Daten zu vermeiden.

    18. Fr welche Trainingsdatenstze gibt es keinen fehlerfreien Entscheidungsbaum?

    wenn es Doppeldeutigkeiten gibt

    BSP: (X1 = 1, Y = -1); (X1 = 1, Y = +1)

    19. Welche Funktionen knnen von Neuronalen Netze berechnet bzw. approximiert werden (welche

    Theoreme gibt es)?

    Theorem 1: Jede Boolsche Funktion kann durch ein NN aus Schwellengattern mit einem hidden layer

    berechnet werden.

    Theorem 2: Jede kontinuierliche Funktion kann von einem NN aus sigmoiden Gattern mit einem

    hidden layer bis zu einer gewissen Genauigkeit approximiert werden.

    20. Aus welchem Grund verwendet man bei backpropagation eine adaptive Lernrate?

    Wie wird die Adaption durchgefhrt?

    Um aus flachen Plateaus zu kommen (zu kleine LR) oder Oszillation zu vermeiden (zu gro).

    Bei jedem iterativem Schritt wird der Fehler auf den Testdaten mit dem vorhergehenden Schritt

    verglichen. Wird er wieder grer, wird die Lernrate gesenkt da ein Tal berspungen wurde.

    Wird er kleiner, wird die Lernrate erhht da man auf dem richtigen Weg ist.

    21. Was ist underfitting und overfitting? Wann tritt es auf?

    Overfitting: Hypo zu komplex, Trainingsfehler minimal, echter Fehler gro.

    Underfitting: Hypo zu einfach, zu wenig Anpassung an Trainingsdaten.

  • 22. Welches Fehlerkriterium (alternativ: Fehlerma) verwendet man typischerweise fr

    Klassifikationsprobleme und welches fr Regressionprobleme?

    23. Woran wird jeweils die Qualitt eines Lernalgorithmus und einer Hypothese gemessen?

    Hypothese : am geringen wahren Fehler errorp(H) = { : H(a) != b}

    Lernalgo : a) ob es in der Hypothesenklasse eine Hypothese mit niedrigem wahren Fehler gibt,

    b) wie gro die Chance ist, dass der Lernalgorithmus schon mit kurzer Liste an

    Trainingsbeispielen eine Hypothese HL in Hypothesenklasse ausgibt, deren wahrer Fehler nicht viel grer ist als der empirische Fehler. (errorp = errorL)

    24. Was ist das dem backpropagation Algorithmus zu Grunde liegende Optimierungsprinzip?

    Geben Sie fr diese allgemeine Optimierungsprinzip die Formel fr einen update Schritt an.

    Alternativ: Findet der backprogation Algorithmus immer ein globales Minimum der Fehlerfunktion?

    25. Unter welchen Bedingungen / Wann liegt der empirische Fehler stets nahe am wahren Fehler?

    Bei einer groen (unendlichen) Anzahl von Trainingsbeispielen

    lim errorL = errorP

    n

    26. Welche Information wird beim backpropagation Algorithmus jeweils vorwrts und rckwrts

    propagiert? Wie geht diese Information in die update Regel fr ein Gewicht des Neuronalen

    Netze ein?

    Vorwrts-bertragung von Information d.h. , um den output aller Neuronen und des

    gesamten Netzwerkes zu bestimmen.

    Berechnung des Outputs des Gatters j

    Rckwrts-bertragung der Fehlerzuweisung jedes Gatters, d.h.

    Berechnung des Fehlers des Gatters k

  • 27. Beschreiben Sie zwei praktisch Methoden zur Vermeidung von overfitting fr Neuronale Netze und

    erklren Sie genau deren zu Grunde liegende Idee (Wieso funktionieren diese Methoden?)

    Weight decay: zustzlicher Regulierungsterm, der die Gewichte klein hlt. Wenn die Gewichte klein

    sind -> linearer Bereich des NN -> kein overfitting.

    Die Gewichte werden mit sehr kleinen Werten (> 0) initialisiert.

    Early stopping: beim Anstieg des Fehlers wird abgebrochen. Man treibt das NN in den nichtlinearen

    Bereich, davor wird abgebrochen

    28. Nennen Sie jeweils fr Nearest Neighbor Algorithmus, Entscheidungsbume und Support Vector

    Machines mindestens einen inhrenten (im Lernalgorithmus implementierten) Mechanismus der

    overfitting vermeidet.

    Nearest Neighbor: Auswahl eines geeigneten ks Entscheidungsbume: Pruning SVM: Transformieren in den kernel-Raum und dort margin mglichst gro werden (margin = Abstand zwischen Trainingsbeispielen und der Klassifikationsebene des Klassifikators)

    29. Woraus bestehen Modelle fr die Prdikatenlogik (Wie sind Modelle definiert)?

    Die Modelle der Prdikatenlogik bestehen aus

    - Objekte (zB Menschen, Huser,..)

    - Relationen zwischen den Objekten (z.B. ist grer als, rot, rund)

    - Funktionen (zB ist Vater von, ist bester Freund von)

    Definition:

    Prdikatenlogik: Wahrheit von Beziehungen zwischen Objekten

    30. Wie setzt man das Minimum Description Length Principle in der Praxis um?

    37. Formulieren Sie das minimum description length principle.

    Whle eine Hypothese H, sodass die folgende Summe klein ist:

    (Beschreibung von H) + (Beschreibung der Abweichung der Vorhersage von H)

    31. Definieren Sie wenn ein Satz der Aussagenlogik in konjuktiver Normalform ist.

    Wenn innen ODER und aussen UND ist. (A v B v C) ^ (D v E v F)...

    32. Definieren Sie wenn ein Satz der Aussagenlogik in disjunktiver Normalform ist.

    Wenn innen UND und aussen ODER ist. (A ^ B ^ C) v (D ^ E ^ F)...

    33. Erklaren Sie die Kriterien, welche jeweils bei der PCA (Hauptkomponententransformation) und

    der LDA (Linear Discriminant Analysis) optimiert werden!

    - Suche nach optimalen Linearkombinationen von Variablen, die die Daten erklaren

    - Minimierung der Abstande zwischen (Hauptkomponenten-)Gerade und Datenpunkten

    - Maximierung der Varianz (Informationsgehalt)

  • 35. Erlautern Sie den Unterschied zwischen der maximum likelihood (ML) und die maximum a-

    posteriori (MAP) Schatzmethode. Unter welcher Bedingung liefern beide Schatzverfahren das gleiche

    Resultat? Welche Anforderungen gibt es an Glattungskern?

    ML schtzt ohne Vorwissen. Bei der maximum Likelihood Methode werden die Parameter so

    geschatzt, dass die Likelihood Funktion maximal wird.

    MAP ist ein Spezialfall des Bayes Schtzer. Im Unterschied zum ML-Schtzer wird bei m Bayes Schtzer

    als Zufallsvariable modellier. D.h. fr existiert eine Wahrscheinlichkeitsdichtefunktion, die so genannte a-priori Verteilung. Beim MAP werden jene Parameter genommen, die die posterior Wahrscheinlichkeit maximieren.

    36. Definieren Sie exakt was das Lernziel ist.

    Lernziel ist die Minimierung des wahren Fehlers und mit einer minimalen Anzahl an Trainingsdaten

    einen moglichst geringen Fehler auf die Validierungsdaten zu erreichen.

  • 1. Was besagt die Markov-Annahme 1. Ordnung?

    Das Verhalten des Systems nur vom aktuellen Zustand und nicht von den vorigen Zustnden

    abhngt. Diese Eigenschaft bezeichnet man als Gedchtnislosigkeit oder auch Markow-Eigenschaft.

    2. Erklren Sie den Unterschied zwischen Markov Modell (MM) und Hidden Markov Modell (HMM)?

    MM: Deterministisch, d.h Zustnde knnen direkt beobachtet werden.

    HMM: Nicht deterministisch, d.h. Zustnde knnen nicht direkt erfasst werden (sondern nur

    ber Beobachtungen). Die Zustnde der Kette sind von auen whrend der

    Ausfhrung nicht direkt sichtbar (sie sind hidden, verborgen).

    3. Welche Parameter hat das Markov Model (MM) und das Hidden Markov Model (HMM)?

    MM: bergangsmatrix (Anzahl Zustnde, bergangswahrscheinlichkeit); Wahrscheinlichkeit der

    Anfangszustnde;

    HMM: bergangsmatrix (Anzahl Zustnde, bergangswahrscheinlichkeit); Wahrscheinlichkeit der

    Anfangszustnde; Beobachtungswahrscheinlichkeiten, dass ein bestimmter Zustand bei einer

    bestimmten Beobachtung auftritt;

    4. Welche Eigenschaften hat der k-means Algorithmus (Initialisierung, Entscheidungsgrenze). Welches

    Kriterium wird optimiert?

    1) minimiert bzw optimiert J (kumlative Distanz) 2) konvergieren gegen lokales Optimum (abhngig von der initialisierung)

    3) J wird mit jeder Iteration besser

    Entscheidung fllt immer zum nchsten Cluster-Mittelpunkt

    5. Was ist ein typisches Einsatzgebiet fr HMMs (Erklren Sie warum?)

    Spracherkennung:

    Die Laute werden als States abgebildet, der Input ist nicht auf eine Lnge beschrnkt, da man z.B.

    lnger im gleichen State verweilen kann. Es werden left-to-right HMMs verwendet.

    6. (Bezglich Grammatikmodelle:) Zeigen Sie ein kurzes Beispiel fr jedes Modell?

    n-gram, uni-gram: P(ich gehe einkaufen) = P(einkaufen gehe ich)

    7. Welche Gramatikmodelle fr die Verarbeitung von natrlicher Sprache kennen Sie? Erklren Sie

    diese kurz.

    n-gram Modelle

    uni-gram: hngen von keinem State ab.

    Bi-gram: hngen vom Vorgnger-State ab.

    Tri-gram: hngen vom Vorgnger- und Vorvorgnger-State ab.

    8. Erklren Sie den Viterbi-Algorithmus / Wozu wird er verwendet?

    Der Algorithmus befindet sich immer in einem State. Es gibt eine endliche Anzahl von States.

    Es gibt von einem State zu einem anderen immer eine Wahrscheinlichkeit, dass dieser bergang

    gewhlt wird. (Hchste Wahrscheinlichkeit: Survivor Path).

    Der Algorithmus behlt immer nur den wahrscheinlichsten Pfad zu einem State im Gedchtnis.

    Verwendung: zB Sequenzklassifikation, Bsp Bestimmung von Musikgenre

  • 9. Wir haben einen Datensatz mit folgender Kovarianzmatrix: Zeile 1: a 0 0 Zeile 2: 0 b 0 Zeile 3: 0 0 c,

    wobei c > a > b. Bestimmen Sie die Richtung der Hauptkomponente, die zum grten Eigenwert

    gehrt.

    Hauptkomponente zeigt in Richtung in hchsten Eigenwert. (Spalten-)Vektor: [0 0 1]

    10. Erlutern Sie die 'kernbasierte' Schtzung von Wahrscheinlichkeitsverteilungen (inbesondere

    empirische und geglttete Dichtefunktion).

    Kernbasierte Schtzungen gehren zu den nichtparametrischen Modellen. Nichtparametrische

    Modelle versuchen mit mglichst wenigen Annahmen ber die funktionale Form der Verteilung

    auszukommen und sind somit generisch einsetzbar. Der Preis dafr ist, dass das so gewonnene Modell

    sehr hohe Komplexitt aufweist, da seine Reprsentation genauso viele Freiheitsgrade aufweisen

    kann wie die ursprnglich beobachtete Datenfolge selbst.

    Man hat eine Liste von Datenpunkten gegeben der Lnge l und schreibt jeden Punkt die gleiche

    Wahrscheinlichkeitsmasse zu. Dazu verwendet man die Delta-Distribution, die einen unendlich hohen

    Impuls an einer Stelle beschreibt. Integriert man ber diesen Punkt, ergibt sich 1. Genau dieses

    Verhalten bentigt man in einer Dichtefunktion.

    Dadurch erhlt man die empirische Dichte.

    Diese Dichte ist jedoch sehr "rau", deswegen legt man einen Glttungskern darber, ber den man

    auf integriert. Die delta - Distribution fllt mit dem Integral weg, brig bleibt eine Summe ber den

    Glttungskern.

    11. Erlutern Sie kurz den Begriff "independent and identically distributed". Wrden Sie Daten mit

    dieser Eigenschaft mit einem MM modellieren (Begrndung)?

    Man geht von unabhngigen und identisch verteilten Zufallsvariablen aus.

    Nein, da independent dem Prinzip des MM widerspricht.

    12. Erlutern Sie die Gauschen Mischverteilung. Welche Parameter sind notwendig.

    13. Erklren Sie den k-means Algorithmus.

    1. Initialisierung: (zufllige) Auswahl von k Cluster Zentren

    2. Zuordnung: Jeder Datenvektor wird demjenigen Cluster zugeordnet, zu dessen Clusterzentrum

    der Abstand minimal ist

    3. Die Clusterzentren werden in ihren jeweilig neuen Mittelpunkt verschoben

    4. Sollte sich die Zuordnung der Datenvektoren ndern, weiter mit 2. sonst fertig.

  • 14. Fensterfunktion Welche Verfahren zum Schtzen von Wahrscheinlichkeitsdichtefunktionen aus

    gegebenen Daten kennen Sie? Beschreiben Sie diese kurz.

    parametrische (zB Gau): Methoden zB ML-Schtzer (likelihood), Bayes'sche Schtzung (a priori Ws.)

    nicht parametrische (zB Histogramm): Ws., dass X' in R (Breite d Abschnitts) fllt,

    15. Erklren Sie, wann und warum es besser sein kann, ein GMM anstatt einer einfachen

    Gauverteilung zur Modellierung gegebener Daten zu benutzen. Was sind dabei jeweils Vor- und

    Nachteile?

    Wenn die Verteilung einer Zufallsvariablen mehr als ein signifikantes Maximum aufweist (es sich also

    um eine multimodale Verteilung handelt), ist eine einzelne Gauverteilung ein ungeeignetes Modell

    und man kann auf die berlagerung mehrerer Gauverteilungen bergehen.

    Vorteil GMM: bessere Modellierung ?

    Nachteile GMM: 1. Die Anzahl k der gaufrmigen Komponenten sollte der Anzahl der lokalen

    Maxima (der Moden) der Verteilung entsprechen, die aber a priori oft unbekannt ist.

    2. Die additive berlagerung mehrerer Exponentialfunktionen macht die Anwendung des Maximum

    Likelihood Verfahrens mathematisch unhandhabbar, da die Parameter der einzelnen

    Exponentialfunktionen nicht mehr direkt bestimmt werden knnen.

    Vorteil GV: einfachere Modellierung

    Nachteile GV: bei mehreren Maximas keine glatte Modellierung

    16. Bei der statistischen Klassifikation verwendet man oft die logarithmierte Likelihood-Funktion.

    Kann die Verwendung des Logarithmus das Klassifikationsergebnis ndern (Begrndung)?

    Nein, da es nur eine monotone Funktion ist.

    17. Erlutern Sie die Reduktion der Dimension von Daten mittels der PCA!

    Die Reduktion der Dimension bedeutet, dass nur relevante Daten (relevante Eigenvektoren)

    bercksichtigt werden. Die Relevanz der Eigenvektoren , wird durch ihre Eigenwert bestimmt.

    Hohe Eigenwert hohe Relevanz.

    18. Frage: Wie bestimmt/bekommt man die Transformationsmatrix der PCA?

    Es werden die Eigenwerte/Eigenvektoren der Kovarianzmatrix bestimmt.

    19. Welche Eigenschaft erfllen die Daten nach Anwendung der PCA?

    Dekorrelation, Die Kovarianzmatrix hat nur Werte in der Diagonale, sonst ist alles 0 (symmetrisch)

    20. Welche Eigenschaften erfllt die Kovarianzmatrix von dekorrelierten Daten?

    Sie hat nur Werte in der Diagonale, sonst ist alles 0 (symmetrisch)

    21. Erklren Sie den EM Algorithmus zum Lernen der Parameter von Gauschen Mischverteilung!

    1. INITIALISIERUNG - Initialisierung der Parameter

    2. E(xpectation)-STEP - Zugehrigkeitswahrscheinlichkeiten berechnen:

    Es wird die Ws fr alle Daten berechnet, dass zur Verteilung gehren

    3. M(aximization)-STEP - Parameter werden neu berechnet

    4. EVALUIERUNG - Evaluiere log p (X| ) => wenn konvergiert, Abbruch, ansonsten springe zu Schritt 2

    22. Welche Vereinfachungen mssen beim EM-Algorithmus zum Lernen von Gauschen

    Mischverteilungen getroffen werden, um den k-means Algorithmus zu bekommen?

    m wird weglassen

    m = *I (es werden nur Distanzen gemessen) Klassifikation, harte Entscheidung (jeder Punkt kann nur zu einer Verteilung gehren)

  • 23. Welche 3 Problemstellungen treten beim Hidden Markov Model (HMM) auf? Erklren Sie diese

    kurz (u.a. Algorithmus, Einsatzgebiet,...) 3/6

    1. Evaluierungsproblem - Algorithmus: Forward/Backward Algorithmus

    2. Dekodierungsproblem - Algorithmus: Viterbi-Algo

    3. Lernproblem / Schtzproblem - Algorithmus: EM-Algo oder Baum-Welch-Algo

    24. Welches Problem ergibt sich wenn die Wortsequenz eines Satzes als i.i.d ("independent and

    identically distributed") Prozess modelliert wird?

    Die Daten liegen unabhangig voneinander und gleich-verteilt vor. Somit ist die Sequenzerkennung

    nicht moglich, da eben bei Sequenzerkennung mit Ubergangswahrsch. gearbeitet wird.

    25. Zeigen Sie ein Klassifikationsbeispiel in R2 bei dem die Dimensionsreduktion mit PCA

    (Hauptkomponententransformation) negative Folgen fur die Klassifikation hat (+ Erklarung?). Warum

    kann die Linear Discriminant Analysis (LDA) dafur verwendet werden?

    26. Erklaren Sie kurz ein Markov Netzwerk (d.h. ein ungerichtetes graphisches Modell). Wie werden

    damit Wahrscheinlichkeitsverteilung modelliert?

    - undirected graph G = (Z,E) which represents factorization properties of the distribution.

    - represents a joint distribution P over some set of random variables.

    - Joint distribution is a product of potential functions C(ZC) over maximal cliques of G

    P(Z) = 1W*CC(ZC)

    27. Erklren Sie ein Bayessches Netzwerk (d.h. ein gerichtetes graphisches Model). Wie werden damit Wahrscheinlichkeitsverteilungen modeliert?

    Knoten: Zufllig ausgewhlte Variablen

    Kanten: Die bedingten Abhngigkeiten

    Knoten die nicht verbunden sind -> voneinander unabhngig

    Jedem Knoten ist eine Wahrscheinlichkeitsfunktion zugeordnet.

    Jedem Knoten des Netzes ist eine bedingte Wahrscheinlichkeitsverteiung der durch ihn

    reprsentierten Zufallsvariable gegeben, die Zufallsvariablen an den Elternknoten zuordnet.

    28. Was versteht man unter Inferenz bei einem graphischen Modell?

    Jeder Punkt gehort also zu einem bestimmen Haufungspunkt. Wir wollen bei einem gegebenen Punkt

    bestimmen zu welchem Haufungspunkt dieser gehort. Dazu mussen wir alle Parameter unseres

    Modells kennen. Das wird als Inferenzproblem bezeichnet. Jeder Haufungspunkt ist eine eigene

    Gauverteilung.

  • 29. Zeigen Sie ein GMM als graphisches Model (+ Erklarung und

    Verbundwahrscheinlichkeitsverteilung). Welche bedingten statistischen Unabhangigkeiten von

    Variablen (conditional independence) impliziert der Graph?

    30. Was versteht man unter links-rechts HMM und ergodischem HMM?

    - Links-Rechts Modelle: System geht mit jedem Schritt entweder zu gleichem Zustand oder zu einem

    bisher noch nicht besuchten uber. Zustandsubergangsmatrix darf an keiner Stelle 0 sein.

    - Ergodische Modelle: Alle Zustande konnen von jedem Zustand aus innerhalb von 1 Schritt mit p > 0

    erreicht werden. Ubergangsmatrix = Obere Dreiecksmatrix.

    31. Sie wollen aus einer Liste von N i.i.d. Samples die Parameter einer Gauverteilung nach der

    Maximum-Likelihood-Methode schatzen. Wie gehen Sie vor? Was ist dabei die Likelihood-Funktion?

    -> maximiren der log likelihood funktion

    arg max ( ) -> Ableitung + 0 setzen der log likelihood funktion

    Problem falls nicht i.i.d.: Falls die Daten nicht unabhngig sind, knnen wir den Schritt in der zweiten

    Zeile (Summierung der logarithmischen Wahrscheinlichkeiten einzelner Samples ergibt

    Gesamtwahrscheinlichkeit) NICHT durchfhren.

    32. Welches Cliques and Maximal Cliques beinhaltet das folgende graphische Modell?

    Clicques:

    z1 - z2 z1 - z3 z2 - z3 z2 - z4 z3 - z4 z1 - z2 - z3 z2 - z3- z4

    Maximal Cliques:

    z1 - z2 - z3 z2 - z3 - z4

    33. Sie haben mehrere HMMs mit Parametern sowie eine Beobachtungssequenz .

    Wie kann man entscheiden, von welchem HMM die Sequenz erzeugt wurde? Nennen Sie eine

    Answendung! Kann man den Viterbi-Algorithmus hierzu benutzen?

    Wir haben ein Evaluierungsproblem/Klassifizierungsproblem -> Forward/Backward Algorithmus.

    Man berechnet von jedem HMM mittels Forward/Backward Algorithmus die Wahrscheinlichkeit, dass

    X von diesem HMM erzeugt wurde. Das HMM mit der hchsten Wahrscheinlichkeit hat die Sequenz

    erzeugt.

    Viterbi kann nicht verwendet werden, da Viterbi einen hidden State Sequenz erzeugt ,die die

    Beobachtungssequenz am besten erklrt.

  • 34. Was kann bei einem gerichteten graphischen Modell gelernt werden?

    Struktur und Paramater

    35. Beschreiben Sie die statistische Klassifikation! Wie kann das Bayes-Theorem dafur verwendet

    werden? Erklaren Sie die einzelnen Terme und Variablen!

    Verfahren basieren auf Dichteberechnungen und Wahrscheinlichkeiten. Bayes-Theorem gehort zu

    uberwachtem Lernen. Eine a-priori-Wahrscheinlichkeit wird durch Erfahrungen ver andert und in eine

    aposteriori-Wahrsch. uberfuhrt

    Seite 50, 51, 53, 54