Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als...

106
Masterarbeit Statistische Analyse der Ergebnisse von Mustererkennungsverfahren Sebastian Sudholt [email protected] 28. April 2014 Gutachter: Dipl.-Inf. Leonard Rothacker Prof. Dr.-Ing. Gernot A. Fink

Transcript of Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als...

Page 1: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

Masterarbeit

Statistische Analyse der Ergebnisse von

Mustererkennungsverfahren

Sebastian [email protected]

28. April 2014

Gutachter:Dipl.-Inf. Leonard RothackerProf. Dr.-Ing. Gernot A. Fink

Page 2: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig
Page 3: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

INHALTSVERZEICHNIS

Inhaltsverzeichnis iii

Mathematische Notation v

Abkürzungen vii

1 Einleitung 1

1.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 Aufbau der Arbeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2 Grundlagen und Stand der Forschung 5

2.1 Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.1.1 Definitionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.1.2 Statistische Modelle . . . . . . . . . . . . . . . . . . . . . . . 8

2.1.3 Stichproben und Parameterschätzung . . . . . . . . . . . . . 10

2.1.4 Q-Q-Plots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.2 Mustererkennung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.2.1 Definitionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.2.2 Musterklassifikation . . . . . . . . . . . . . . . . . . . . . . . 20

2.2.3 Information Retrieval . . . . . . . . . . . . . . . . . . . . . . 22

3 Meta Recognition 29

3.1 Einordnung und verwandte Arbeiten . . . . . . . . . . . . . . . . . 30

3.2 Konzeptioneller Aufbau . . . . . . . . . . . . . . . . . . . . . . . . . 34

3.3 Weibull-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

3.4 Ordnung der Score-Menge . . . . . . . . . . . . . . . . . . . . . . . . 39

iii

Page 4: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

INHALTSVERZEICHNIS

3.5 Fehlerkurven . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

4 Kerndichteschätzung für die Meta Recognition 454.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464.2 Ablauf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 474.3 Meta Recognition beim Information Retrieval . . . . . . . . . . . . . 494.4 Fläche unter der MRET-Kurve . . . . . . . . . . . . . . . . . . . . . . 50

5 Experimente 535.1 Referenz Post-Recognition-Verfahren . . . . . . . . . . . . . . . . . . 545.2 Reproduktion der Ergebnisse des BSSR1 . . . . . . . . . . . . . . . . 55

5.2.1 BSSR1-Datensatz . . . . . . . . . . . . . . . . . . . . . . . . . 555.2.2 Aufbau des Experiments . . . . . . . . . . . . . . . . . . . . . 565.2.3 Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 585.2.4 Evaluierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

5.3 Meta Recognition mit kleiner Klassenanzahl . . . . . . . . . . . . . 655.3.1 MNIST-Datensatz . . . . . . . . . . . . . . . . . . . . . . . . . 655.3.2 Aufbau des Experiments . . . . . . . . . . . . . . . . . . . . . 665.3.3 Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 685.3.4 Evaluierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

5.4 Meta Recognition beim Word Spotting . . . . . . . . . . . . . . . . . 735.4.1 George Washington Datensatz . . . . . . . . . . . . . . . . . 735.4.2 Aufbau des Experiments . . . . . . . . . . . . . . . . . . . . . 745.4.3 Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 765.4.4 Evaluierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

5.5 Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

6 Zusammenfassung 87

Abbildungsverzeichnis 91

Literaturverzeichnis 93

iv

Page 5: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

MATHEMATISCHE NOTATION

Die in dieser Arbeit verwendete mathematische Notation weicht in manchen Tei-len von der Schreibweise in der bekannten Literatur ab, um ein einheitliches Bildabzugeben. Es gelten folgende Konventionen:

Notation Typ Beschreibung

x, y, . . . Skalare lateinische Kleinbuchstabenx, y, . . . Vektoren lateinische Kleinbuchstaben, fett

gedrucktA, B, . . . Mengen lateinische GroßbuchstabenA, B, . . . Matrizen lateinische Großbuchstaben, fett

gedrucktα, β, . . . Parameter eines statisti-

schen Modellsgriechische Kleinbuchstaben

Wird eine Folge von Vektoren indiziert, so steht der Index links oben vor demVektor (Bsp. 1v, 2v, . . .). Soll auf einzelne Elemente eines Vektors zugegriffen wer-den, so steht der entsprechende Index unten rechts am Vektor (Bsp. v1). Funktio-nen sind immer von der Form f (x) und ihre zugehörigen Stammfunktionen istF(x). Einzige Ausnahme ist hier L(α, γ, . . . |W), welches die Likelihood der Para-meter α, γ, . . . bei beobachteter Stichprobe W bedeutet. Handelt es sich bei einerFunktion um ein statistisches Modell mit Parametern α, γ, . . . , so deutet dies dieSchreibweise f (x|α, γ, . . .) an. Intervallgrenzen werden durch ein Semikolon ge-trennt. So handelt es sich beispielsweise bei [0; 1] um das geschlossene Intervallvon 0 bis 1. Zweidimensionale Punkte werden in runden Klammern angegeben

v

Page 6: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

INHALTSVERZEICHNIS

und durch einen senkrechten Strich getrennt. So ist (0|1) zum Beispiel der Punktmit x-Koordinate 0 und y-Koordinate 1.Alle in der Arbeit vorkommenden Typen und Variablen werden definiert, wobeidie wichtigsten zusätzlich in der folgenden Tabelle aufgeführt sind.

Variable Beschreibung

λ Skalenparameter einer Weibull-Verteilungβ Formparameter einer Weibull-VerteilungλMLE Maximum-Likelihood-Schätzung des Skalenpara-

metersβMLE Maximum-Likelihood-Schätzung des Formparame-

terssi i-ter Score in einer Menge von ScoresP(x) Wahrscheinlichkeit des Ereignisses xL(α, γ, . . . |W) Likelihood der Parameter α, γ, . . . bei beobachteter

Stichprobe WU Umwelt, aus der Muster entstammenPK Problemkreis aus der Umwelt (PK ⊂ U)Ki i-te Klasse aus dem Problemkreis PK (K ⊂ PK)f(x) Muster aus dem Problemkreis PK (f(x) ∈ PK)pc Merkmalsvektor zum Muster pf(x)δ Flächenschwellwert der Meta RecognitionW Weibull-VerteilungF Non-Match-Verteilungh Bandbreite einer Kerndichteschätzung

vi

Page 7: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

ABKÜRZUNGEN

AMISE Asymptotical Mean Integrated Squared Error

AUC Fläche unter der Kurve (engl. area under curve)

BoF-HMM Bag of Feature Hidden Markov Model

BSSR1 Biometric Score Set - Release 1

CDF Kumulative Verteilungsfunktion (engl. Cumulative Distribution Function)

EER Equal Error Rate

KDE Kerndichteschätzung (engl. kernel density estimation)

MAP Mean Average Precision

MLE Maximum Likelihood Schätzung (engl. Maximum Likelihood Estimation)

MNIST Modified NIST

MR Mean Recall

MRET Meta Recognition Error Tradeoff Kurve

MRFAR Meta Recognition False Accept Rate

MRMDR Meta Recognition Miss Detection Rate

PDF Wahrscheinlichkeitsdichtefunktion (engl. Probability Density Function)

vii

Page 8: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig
Page 9: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

1EINLEITUNG

Seit mehreren Jahren beschäftigt sich das Feld der Post-Recognition-Verfahrenmit der Verbesserung der Ergebnisse von Mustererkennungsverfahren. Eines derneusten Verfahren auf diesem Gebiet ist die Meta Recognition. Sie bewertet aufBasis der Ergebnisse eines Mustererkennungssystems automatisch , ob das Er-gebnis korrekt oder falsch ist. In dieser Arbeit wird die Meta Recognition un-tersucht. Ursprünglich entwickelt für Musterklassifikation, wird gezeigt, in wieweit sie im Information Retrieval einsetzbar ist. Zudem wird eine neue Form vonMeta Recognition vorgestellt, von der experimentell gezeigt wird, dass sie bei derMusterklassifikation bessere Ergebnisse erzeugt als das Ursprungsverfahren.In diesem Kapitel wird zunächst die Meta Recognition motiviert (Abschnitt 1.1).Anschließend wird für eine einfache Übersicht über diese Arbeit der Aufbau derfolgenden Kapitel beschrieben (Abschnitt 1.2).

1.1 MotivationSeit über 30 Jahren beschäftigt sich das Feld der Mustererkennung mit der Nach-bildung von menschlichen Wahrnehmungsleistungen durch Computer (vgl. [Nie83,S. 10]). Trotz dieses langen Zeitraums existieren noch immer Probleme auf diesem

1

Page 10: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

1 Einleitung

Gebiet, die nicht vollständig gelöst sind. So sind Computer heute in der Lage ma-schinell gedruckte Texte äußerst gut automatisch zu erkennen, während sie teil-weise erhebliche Schwierigkeiten haben handschriftlich verfasste Texte korrektzu analysieren [KLP01].Diese Art von Problemen fällt in das Feld der Klassifikation. Ziel der Verfahrenaus diesem Aufgabengebiet ist es ein unbekanntes Objekt einer bekannten Klas-se von Objekten zuzuordnen. Nach Duda et al. geben Musterklassifikationssy-teme Empfehlungen darüber ab, welche Handlungen ausgeführt werden sollen[DHS01, S. 10]. Insbesondere bei sicherheitskritischen Systemen können Fehlent-scheidungen des Systems Gefahren hervorrufen. Es ist daher wünschenswert zuüberprüfen, ob und wann ein Klassifikationssystem korrekt arbeitet und wannes Fehler produziert. Zu diesem Zweck wurden in den letzten Jahren eine Rei-he von Abläufen entwickelt, welche ein Musterklassifikationssystem automatischuntersuchen können. Sogenannte Post-Recognition-Verfahren verarbeiten Klassifi-kationsergebnisse und geben auf deren Basis eine Empfehlung darüber ab, ob dieKlassifikation akzeptiert oder abgelehnt werden sollte. Insbesondere der Bereichder Biometrik hat in den letzten Jahren eine Fülle von Post-Recognition-Verfahrenhervorgebracht.Aus all diesen Verfahren sticht die Meta Recognition hervor, da sie als bisher ein-zige ihre Eignung zur Überprüfung von Mustererkennungssystemen mit einemtheoretischen Beweis belegen kann [SRMB11]. Grundlage dieses Verfahrens istdie Normalisierung der Klassifikationsergebnisse über eine bestimmte Wahrschein-lichkeitsverteilung und ein anschließender Test. Der Test untersucht, ob das er-zeugte Ergebnis ein Ausreißer im Bezug zur Verteilung ist. Der eingangs erwähn-te Beweis bezieht sich auf die Familie von Funktionen, aus der die Wahrschein-lichkeitsverteilung entstammt. Er sagt aus, dass die am besten geeignete Funktiondie Weibull-Verteilung ist. Der Beweis fußt auf mehreren Annahmen. Eine davonist, dass bei der Klassifikation genug Klassen vorliegen, zu denen das Muster-klassifikationssytem eine Eingabe zuordnen kann. Es wird jedoch nicht genauerdarauf eingegangen wird, was ”genug Klassen” bedeutet.Diese Annahme motiviert die Überlegung, wie viele Klassen im Kontext der Me-ta Recognition genug Klassen sind und was passiert, wenn nicht genug Klassenvorhanden sind. Eine naheliegende Vermutung ist, dass in diesem Fall nicht dieWeibull-Verteilung am geeignetsten ist, sondern eine andere Familie von Vertei-lungen eventuell bessere Ergebnisse erzielen kann. Dies ist das Kernthema dieser

2

Page 11: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

1.2 Aufbau der Arbeit

Arbeit. Es wird die Meta Recognition nach Scheirer et al. mit einer für diese Arbeitneu entwickelten Form von Meta Recognition verglichen und untersucht, welcheVariante bessere Ergebnisse erzielt.Dafür wird zunächst die Meta Recognition rekonstruiert. Anschließend wird dieerwähnte neue Form der Meta Recognition mit der alten verglichen. Es wirdgezeigt, dass die vorgestellte Variante bessere Ergebnisse liefert und diskutiert,warum dies der Fall ist.Die Meta Recognition wurde speziell für den Einsatz in Kombination mit Mus-terklassifikationssystemen entwickelt. Scheirer et al. ermutigen jedoch dazu, dasssie auch in anderen Bereichen der Informatik verwendet werden soll. In dieserArbeit wird daher die Meta Recognition auf ein Problem aus dem Bereich desInformation Retrieval angewendet. Da hier andere Voraussetzungen als bei derMusterklassifikation vorliegen, muss der Ablauf der Meta Recognition abgeän-dert werden. Die genauen Maßnahmen, die hierfür notwendig sind, werden inden folgenden Kapiteln beschrieben.

1.2 Aufbau der ArbeitDie Arbeit ist in sechs Kapitel unterteilt, wobei das erste Kapitel sich bereits mitder Motivation und den abstrakten Grundzügen der Arbeit beschäftigt. Im zwei-ten Kapitel werden die zum das Verständnis nötigen Grundlagen ausführlichdargestellt. Insbesondere wird dort auf Verfahren aus der Statistik (Abschnitt 2.1)und der Mustererkennung (Abschnitt 2.2) eingegangen, da die Meta Recognitionin großen Teilen darauf beruht. Zudem wird das Information Retrieval vorgestellt2.2.3.Das dritte Kapitel beschäftigt sich mit der Meta Recognition nach Scheirer et al.,während im vierten Kapitel bereits im vorangehenden Abschnitt erwähnte neueForm der Meta Recognition vorgestellt wird. Im fünften Kapitel werden die Expe-rimente vorgestellt und durchgeführt, die die Eignung diese Verfahrens belegen.Das sechste Kapitel fasst schlussendlich alle Erkenntnisse dieser Arbeit zusam-men.

3

Page 12: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig
Page 13: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

2GRUNDLAGEN UND STAND DER

FORSCHUNG

Im folgenden Kapitel werden die für die Meta Recognition wichtigen Grundla-gen dargestellt. Da weite Teile der Meta Recognition auf Grundlagen der Statistikbasieren, werden zuerst relevante Aspekte aus diesem mathematischen Feld er-läutert (Abschnitt 2.1). Anschließend werden Grundzüge der Musterkerkennungbeschrieben (Abschnitt 2.2), da die Meta Recognition, wie in Kapitel 1 beschrie-ben, auf deren Ergebnissen aufbaut.

2.1 Statistik

Wie oben bereits erwähnt, wird im Verlauf der Arbeit immer wieder auf grund-legende Konzepte aus der mathematischen Statistik zurückgegriffen. Daher sollin diesem Abschnitt ein einführender Überblick über die benötigten Definitio-nen und Modelle gegeben werden. Dabei ist der Anspruch, dass die wesentli-chen Prinzipien verdeutlicht werden, ohne diese mathematisch herzuleiten. Fürvertiefende Literatur wird auf die entsprechenden Quellen [BS10, Fin03, HEK07,

5

Page 14: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

2 Grundlagen und Stand der Forschung

HEK09, HG11, Ste13] verwiesen, aus denen alle in dieser Sektion aufgeführtenInformationen stammen.

2.1.1 Definitionen

Viele natürliche Prozesse laufen nach einem zufälligen Verhalten ab. Daher istes nicht möglich, über einen einzelnen Ausgang eines solchen Prozesses Aussa-gen zu machen (vgl. [Fin03]. Werden solche Prozesse jedoch häufig durchgeführt,können bestimmte Regelmäßigkeiten und Gesetzmäßigkeiten abgeleitet werden.Dieser Vorgang wird in der mathematischen Statistik als Zufallsexperiment be-zeichnet. Zufallsexperimente sind definiert als wiederholbare Vorgänge, die nacheiner bestimmten Vorschrift ablaufen und deren Ergebnis vom Zufall abhängt(vgl. z.B. [Fin03, S. 41] oder [Ste13, S. 74]). Der Raum aller möglichen Ergebnis-se eines solchen Zufallsexperiments wird als Ereignisraum bezeichnet. Ein zufäl-liges Ereignis ist eine Untermenge dieses Raums (vgl. z.B. [HEK07]). Einelemen-tige Ereignisse werden als Elementarereignis bezeichnet. Beispielsweise kann dasZufallsexperiment eines Würfelwurfs das Elementarereignis 6 aus dem Ereignis-raum W = {1, 2, 3, 4, 5, 6} annehmen.Um Zufallsexperimente mathematisch zu handhaben, ist es nötig, dass ihre Er-eignisse auf Zahlen abgebildet werden. Eine solche Abbildung wird als Zufalls-variable bezeichnet. Jedes Zufallsexperiment kann durch eine Menge von Zufalls-variablen beschrieben werden, die die möglichen Ereignisse in die Menge R derrellen Zahlen abbilden (vgl. [HEK07, S. 28] oder [Fin03, S. 43]). Zufallsvariablen,die nur endlich oder abzählbar unendlich viele Werte annehmen können werdenals diskret bezeichnet, während solche, die jeden Wert aus R annehmen können,stetig genannt werden. Für eine diskrete Zufallsvariable z gibt die Wahrscheinlich-keitsfunktion p an, mit welcher Wahrscheinlichkeit P ein bestimmtes Ereignis x beimZufallsexperiment auftritt:

pz(x) = P(z = x). (2.1)

Vereinfachend wird auch häufig

pz(xi) = pi, i = 1, 2, . . . (2.2)

6

Page 15: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

2.1 Statistik

geschrieben (vgl. [Ste13, S. 97]). Es ist gefordert, dass p immer positiv ist und dieSumme aller Wahrscheinlichkeiten genau 1 beträgt (vgl [Ste13, S. 76]):

∑x

pz(x) = 1. (2.3)

Geht man im Beispiel von oben von einem perfekten Würfel aus, ist jeder Aus-gang des Wurfs gleich wahrscheinlich, daher ist die Wahrscheinlichkeitsfunktion

pz(wi) = P(z = wi) = pi =16

, wi ∈W. (2.4)

Zufallsvariablen werden über ihre Verteilungsfunktion Fz(x) chrakterisiert (vgl.[Fin03, S. 43]). Diese gibt an, wie hoch die Wahrscheinlichkeit ist, dass von einerZufallsvariablen z angenommene Werte kleiner oder gleich x sind:

Fz(x) = P(z ≤ x). (2.5)

Für diskrete Zufallsvariablen ist die Verteilungsfunktion genau die Summe allerWahrscheinlichkeiten pi zu den Werten xi, die kleiner oder gleich x sind:

Fz(x) = ∑i

pi, i : xi ≤ x. (2.6)

Die bisher beschriebenen Definitionen gelten, wie bereits erwähnt, nur für diskre-te Zufallsvariablen. Um sie auf stetige Zufallsvariablen zu übertragen, müssen sieetwas modifiziert werden. Die Wahrscheinlichkeitsfunktion pz wird für stetigeZufallsvariablen z als Wahrscheinlichkeitsdichtefunktion (engl. Probability DensityFunction) (PDF) oder kurz Dichtefunktion von x bezeichnet (vgl. [Fin03, S. 44]).Analog zu den Wahrscheinlichkeiten muss jeder Wert der Dichtefunktion positivsein und das Integral über alle Werte 1 betragen:

∞∫−∞

pz(x)dx = 1. (2.7)

Generell kann px auch Werte annehmen, die Größer als 1 sind, so lange das In-tegral über alle Werte genau 1 beträgt. Der Begriff der Wahrscheinlichkeit kanndaher für stetige Zufallsvariablen nur über ein Interval (a, b] angegeben werden(vgl. [Fin03, S. 44] oder [Ste13, S. 98]):

P(a < x ≤ b) =b∫

a

pz(x)dx. (2.8)

7

Page 16: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

2 Grundlagen und Stand der Forschung

Somit ist die Wahrscheinlichkeit, dass x im Intervall (a, b] liegt, genau die Flä-che unter der Dichtefunktion im Intervall (a, b]. Wird das Intervall zusammen-geschrumpft, verringert sich die Fläche unter der Dichtefunktion. Ist schließlichaus dem Intervall ein einziger Punkt geworden, beträgt die Fläche 0. Daher istdie Wahrscheinlichkeit, dass eine stetige Zufallsvariable einen bestimmten Wertannimmt genau Null (vgl. [Fin03, S. 44].Auch das Konzept der Verteilungsfunktion kann auf stetige Zufallsvariablen er-weitert werden. In der Formel 2.6 wird das Summenzeichen zu einem Integralund es wird über alle Werte integriert, die links von x liegen:

Fz(x) =x∫

−∞

pz(t)dt. (2.9)

Die Funktion Fx wird in der Literatur als Kumulative Verteilungsfunktion (engl. Cu-mulative Distribution Function) (CDF) bezeichnet.In den folgenden Kapiteln wird zu Gunsten einer übersichtlicheren Schreibwei-se für die Dichtefunktion p(x) und für die kumulative Verteilungsfunktion F(x)geschrieben.

2.1.2 Statistische ModelleDie Dichtefunktionen stetiger Zufallsvariablen werden über parametrisierte Funk-tionen beschrieben, wobei diese Funktionen auch als Modelle bezeichnet werden.Es existiert eine Vielzahl von Modellen, unter denen die Normalverteilung ausSicht der Statistik hervorsticht, da sie vielen zufälligen Vorgängen in der Natur zuGrunde liegt (vgl. zum Beispiel [BS10] oder [Fin03, S. 47]). Beispielsweise folgenviele Arten von Messfehlern dieser Wahrscheinlichkeitsverteilung (vgl. [Ste13, S.122]). Liegt einer Zufallsvariablen die Normalverteilung zu Grunde, so wird sieauch als normalverteilt bezeichnet.Die Dichtefunktion der Normalverteilung ist definiert als

N (x|µ, σ2) =1√

2πσ2· e−

(x−µ)2

2σ2 (2.10)

und ihre kumulative Verteilungsfunktion als

F(x) =12

(1 + erf

(x− µ

2σ2

)), (2.11)

8

Page 17: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

2.1 Statistik

−2 0 2

0

0.2

0.4

Wert der Zufallsvariable

Wah

rsch

einl

ichk

eits

dich

te

(a)

−2 0 20

0.5

1

Wert der Zufallsvariable

Kum

ulat

ive

Dic

hte

(b)

Abbildung 2.1: Die beiden Grafiken zeigen die PDF (a) und die CDF (b) der Nor-malverteilung mit Erwartungswert 0 und Varianz 1.

wobei µ als Erwartungswert und σ2 als Varianz bezeichnet wird. Die Wurzel derVarianz heißt Standardabweichung. Die Funktion erf wird als die Fehlerfunktion be-zeichnet. Sie ist nicht in geschlossener Form darstellbar, sondern wird über dasIntegral

erf(x) =2√π

x∫0

e−t2dt (2.12)

dargestellt. Die Abbildung 2.1 visualisiert die Dichte- und und kumulative Ver-teilungsfunktion der Normalverteilung. In dargestellten Fall beträgt der Erwar-tungswert 0 und die Varianz 1. Diese besondere Form der Normalverteilung heißtStandardnormalverteilung.An der Abbildung 2.1 lässt sich gut erkennen, dass die Normalverteilung amErwartungswert ihr Maximum hat und von dort in alle Richtungen monoton ab-fällt. Diese Form von Verteilungsfunktionen werden als unimodal bezeichnet (vgl.[Fin03, S. 47]). Sollen Dichtefunktionen mit mehr als nur einem Extremwert ein-gesetzt werden, ist eine Möglichkeit die sogenannte Mischverteilung. Hierbei wirdeine Menge von Normalverteilungen mit verschiedenen Erwartungswerten bzw.Varianzen gewählt und zu einer PDF zusammengefasst:

p(x) =k

∑i=1

ciN (µi, σ2i ) , wobei

k

∑i=1

ci = 1. (2.13)

9

Page 18: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

2 Grundlagen und Stand der Forschung

2.1.3 Stichproben und Parameterschätzung

Im vorherigen Abschnitt wurde beschrieben, was statistische Modelle sind undwofür sie benutzt werden. In diesem Abschnitt wird erläutert, wie die Parame-ter eines statistischen Modells auf Grundlage von realen Daten bestimmt werdenkönnen.Um im praktischen Einsatz die Abläufe von Zufallsprozessen zu modellieren,müssen zwei generelle Aufgaben bewältigt werden. Zunächst muss eine geeigne-te Familie von Modellen gewählt werden, die dem Prozess zu Grunde liegt, undanschließend die Parameter des Modells so eingestellt werden, dass sie ihn genaugenug beschreiben. Die Wahl des Modells beruht häufig auf Erfahrung. Beispiels-weise kann, wie in Abschnitt 2.1.2 beschrieben, bei einer Reihe von Messfehlerndavon ausgegangen werden, dass eine Normalverteilung den Prozess gut model-liert. Die Parameter hingegen lassen sich hingegen gut auf Grundlage von Mess-daten des Zufallsexperiments bestimmen.Das Problem, was sich hier stellt, ist, dass insbesondere bei Zufallsexperimentenmit stetigen Zufallsvariablen nicht alle möglichen Ausprägungen betrachtet wer-den können. Vielmehr müssen die Parameter auf Basis einer sogenannten Stich-probe geschätzt werden (vgl. [HEK07, S. 38]). Eine Stichprobe ist eine endlicheMenge R = {x1, x2, . . . , xn} der Ergebnisse von n Zufallsvariablen z1, z2, . . . , zn,also n Ergebnissen eines Zufallsexperiments (vgl. [HEK07, S. 39]). Eine Stichprobewird als stochastisch unabhängig bezeichnet, wenn das Auftreten eines Ergebnis-ses xi nicht durch das Auftreten eines anderen Ergebnisses xj beeinflusst wird(vgl.[HEK07, S. 27]). Folgen zudem alle zi einer gemeinsamen Wahrscheinlich-keitsverteilung, ist R eine unabhängige, identisch verteilte Stichprobe. In der engli-schen Literatur wird dieser Sachverhalt üblicherweise mit i.i.d.(independant andidentically distributed) abgekürzt. Um mit einer Stichprobe die Parameter einerWahrscheinlichkeitsverteilung zu schätzen, sind diese beiden Eigenschaften vongroßer Bedeutung. Die Gleichverteilung ist notwendig, da aus den Stichproben-elementen ein Rückschluss auf die gemeinsamen Parameter gezogen werden soll,der sich über alle Stichprobenelemente nicht verändern darf.Wenn ein statistisches Modell vorgegeben ist und eine Stichprobe mit Daten desuntersuchten Zufallsprozesses vorliegen, so können aus ihr die Parameter desModells geschätzt werden. Ein häufig benutztes Konzept zur Schätzung der Pa-rameter ist die Maximum Likelihood Schätzung (engl. Maximum Likelihood Esti-

10

Page 19: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

2.1 Statistik

mation) (MLE). Hierbei werden die Parameter so gewählt, dass sie die Stichpro-be unter dem gewählten Modell am plausibelsten machen, also die Wahrschein-lichkeit der Beobachtung der Stichprobe maximiert (vgl. [Fin03, S. 49]). Unter derAnnahme, dass R unabhängig und identisch verteilt ist, beträgt die Gesamtwahr-scheinlichkeit des Auftretens der Stichprobe

p(R|Θ) = p(x1, x2, . . . , xn|Θ) =n

∏i=1

p(xi|Θ), (2.14)

wobei Θ der Satz an Parameter des gewählten Modells ist (vgl. [Ste13, S. 168]).Bei der Maximierung der Gesamtwahrscheinlichkeit stellt nicht die Stichprobedie veränderliche Variable dar, sondern Θ. Um dies zu verdeutlichen, wird dieLikelihood-Funtion definiert als

L(Θ|R) = L(Θ|x1) · L(Θ|x2) · . . . · L(Θ|xn) =n

∏i=1

p(xi|Θ). (2.15)

Um die Parameter zu erhalten, die die Stichprobe am plausibelsten erklärt, wirdL in Abhängigkeit von Θ maximiert:

ΘML = arg maxΘ

L(Θ|R). (2.16)

Dieser Satz an Parametern wird dann als Schätzwert für die gesuchten Modell-parameter benutzt (vgl. [Fin03, S. 49]).Mathematisch kann dieses Optimierungsproblem oft vereinfacht werden, wennstatt der Likelihood-Funktion ihr Logarithmus maximiert wird. Dies ist zulässig,da der Logarithmus eine streng monotone Funktion ist und daher das Maximumder so transformierten Funktion auch das Maximum der Ausgangsfunktion ist.Der Logarithmus der Likelihood-Funktion wird auch als Log-Likelihood bezeich-net (vgl. [Ste13, S. 169]):

l(Θ|R) = ln(L(Θ|R)) =n

∑i=1

l(Θ|xi). (2.17)

Neben der mathematischen Vereinfachung, hat die Log-Likelihood einen weite-ren numerischen Vorteil, der insbesondere bei der Berechnung mit Computernzum Tragen kommen kann: Bei der Multiplikation von Dichten können leichtsehr kleine Werte entstehen, die die Präzision von Gleitkommazahlen unterschrei-ten kann. Der Logarithmus schränkt dieses Problem ein (vgl. [Bis06]).Die MLE bietet einige Vorteile, wenn davon ausgegangen werden kann, dass das

11

Page 20: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

2 Grundlagen und Stand der Forschung

richtige statistische Modell gewählt wurde und eine große Stichprobe vorliegt:Die geschätzten Parameter konvergieren gegen die tatsächlichen Parameter desModells, wenn die Stichprobengröße gegen unendlich strebt. Darüber hinaus ha-ben die geschätzten Parameter minimale Varianz, was bedeutet, dass kein ande-res Verfahren Parameter schätzen kann, die näher an den tatsächlichen Modell-parametern liegen (vgl. [Fin03, S. 51]).Das Maximum-Likelihood-Verfahren kann dann eingesetzt werden, wenn eineAnnahme über das statistische Modell gemacht werden kann und lediglich dieParameter bestimmt werden müssen. Wenn solch eine Annahme nicht möglichoder nicht gewünscht ist, müssen andere Verfahren zum Einsatz kommen, umden Zufallsprozess zu modellieren. Ein Verfahren, dass ohne Modellannahmeund Schätzung von Parametern auskommt, ist die Kerndichteschätzung (engl. ker-nel density estimation) (KDE), die ihres Entdeckers wegen in der Literatur auchals Parzen Fenster Methode oder Parzen Schätzung bezeichnet wird [Par62, AL08,Bis06]. Ziel ist es, basierend auf einer Stichprobe R = {1x, 2x, . . . , nx} mit n Ele-menten eine Dichtefunktion p(x) zu schätzen, ohne ein statistisches Modell zubenötigen.Das Grundlegende Konzept ist, die Wahrscheinlichkeiten einzelner Punkte derDichtefunktion durch das Verhältnis von Stichprobenelementen, die an diesemPunkt liegen, zur Gesamtgröße der Stichprobe auszudrücken, ähnlich einem Hi-stogramm. Zu diesem Zweck wird zunächst ein kleines Gebiet G der zu bestim-menden Dichtefunktion betrachtet. Die Wahrscheinlichkeit P, dass ein Elementder Stichprobe R in G liegt, beträgt

P =∫

Gp(x)dx. (2.18)

Es kann gezeigt werden, dass für große n die Anzahl m der Stichprobenelemente,die in G fallen, ungefähr

m ≈ nP (2.19)

ist (vgl. [Bis06, S. 122]), die Wahrscheinlichkeit also das Verhältnis von Stichpro-benelementen in G zu allen Stichprobenelementen angibt. Wird außerdem ange-nommen, dass das Gebiet G klein genug ist, dass p annähernd konstant bleibt,dann beträgt P ungefähr

P ≈ p(x) · v, (2.20)

wobei v das Volumen des Gebiets G ist. Das Produkt aus Dichte und Volumenentspricht einer numerischen Annäherung des Integrals aus Formel 2.18. Werden

12

Page 21: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

2.1 Statistik

die beiden Formeln 2.19 und 2.20 zusammengefügt, so ergibt sich eine Annähe-rung der Dichtefunktion durch

p(x) =mnv

. (2.21)

Der beschriebene Ansatz macht von zwei widersprüchlichen Annahmen Gebrauch,nämlich dass das Gebiet G klein genug ist, dass p(x) annähernd konstant ist, abergroß genug, dass genügend Stichprobenelemente in G fallen (vgl. [Bis06, S. 122]).Es ergibt sich ein Problem, wenn v gegen Null strebt. In diesem Fall würde dieRegion so klein werden, dass keine Elemente der Stichprobe mehr in G fallen(vgl. [DHS01, S. 163]). Daher ist es unabdingbar, dass v nicht beliebig klein wer-den darf. Diese Überlegung führt dazu, dass p auf zwei unterschiedliche Weisenbestimmt werden kann. Die eine Möglichkeit ist, dass die Anzahl m der in dasGebiet fallenden Elemente konstant gewählt wird und das Volumen v des Ge-biets an Hand der Stichprobe bestimmt wird. Diese Methode wird als k-Nächste-Nachbarn-Methode bezeichnet. Für diese Arbeit hat sie keine Relevanz und wirddaher nicht näher betrachtet. Interessierte Leser finden eine sehr gute Erklärungder k-Nächste-Nachbarn-Methode zum Beispiel in [Bis06]. Die andere Möglich-keit zur Bestimmung von p ist, dass die Größe v konstant gehalten wird undm aus der Stichprobe geschätzt wird. Dieses Verfahren wird als Kernel Methodebezeichnet. Da es in späteren Kapiteln Anwendung finden wird, soll es hier aus-führlich erläutert werden.Es wird zunächst davon ausgegangen, dass G ein Hyperwürfel mit Mittelpunktx ist. Um zu bestimmen, wie viele der Stichprobenelemente in den Würfel fallen,wird eine Hilfsfunktion

k(u) =

1 |ui| ≤ 12

0 sonst(2.22)

definiert, wobei ui die einzelnen Elemente des Vektors u sind. k wird in die-sem Zusammenhang auch als Parzen Fenster oder Kernel Funktion bezeichnet (vgl.[Bis06, S. 123]). Die Funktion

b(x, ix, h) = k(

x− ixh

)(2.23)

ist genau dann 1, wenn das Stichprobenelement ix in den Hyperwürfel mit Mit-telpunkt x und Kantenlänge h fällt, sonst 0. h wird in diesem Zusammenhang als

13

Page 22: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

2 Grundlagen und Stand der Forschung

Bandbreite bezeichnet. Die Gesamtanzahl aller Elemente, die in den Würfel fallen,ist also

m =n

∑i=1

b(x, ix, h) (2.24)

=n

∑i=1

k(

x− ixh

). (2.25)

Zur Bestimmung von p wird die Gleichung für m nun in die Gleichung 2.21 ein-gesetzt:

p(x) =1

nv

n

∑i=1

k(

x− ixh

). (2.26)

Bildlich gesprochen wird also an jedem Stichprobenelement ein Würfel platziert.Zusammen formen alle diese Würfel die PDF p.Ein zentrales Problem bei der Schätzung mit Hilfe von Hyperwürfeln ist, dassp jeweils an den Rändern der jeweiligen Würfel Unstetigkeiten aufweist (vgl.[Bis06, S. 123]). Um dieses Problem zu lösen, wird statt des Würfels eine stetigeKernel Funktion gewählt. Die Voraussetzungen an diese Kernel Funktion sind,dass

k(u) ≥ 0 und∫

k(u)du = 1. (2.27)

Nach dieser Definition eignet sich jede Dichtefunktion als Kernel Funktion (vgl.[DHS01, S. 165]). Häufig wird die Normalverteilung als Kernel benutzt (vgl. [Bis06,S. 123]), wodurch sich für p die Gleichung

p(x) =1n

n

∑i=1

1(2πh2)d/2 e−

||x−ix||22h2 (2.28)

ergibt. d steht hier für die Dimension von x. Die Bandbreite steht jetzt für dieStandardabweichung der Normalverteilung, die als Kernel Funktion fungiert. Dain dieser Arbeit lediglich aus eindimensionalen Stichproben die entsprechendenVerteilungsfunktionen geschätzt werden, wird mit

p(x) =1n

n

∑i=1

1√(2πh2)

e−(x−xi)

2

2h2 . (2.29)

die Kerndichteschätzung mit Normalverteilung als Kernel speziell für diesen Fallangegeben. Zur Bestimmung der kumulativen Verteilungsfunktion müssen le-diglich die einzelnen Summanden in Formel 2.29 integriert werden. Jedes Stich-probenelement stell hierbei den Erwartungswert einer Normalverteilung dar und

14

Page 23: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

2.1 Statistik

−2 −1 0 1 2 3 4 5 6 7 8 9 10 11 120

5 · 10−2

0.1

0.15

0.2

0.25

x

Wah

rsch

einl

ichk

eits

dich

te

Abbildung 2.2: Exemplarische Darstellung einer KDE. Die roten Kreuze symboli-sieren Werte einer Stichprobe, zu der mit Hilfe der KDE eine PDF(blaue Kurve) geschätzt werden soll. Die grünen Normalvertei-lungen liegen jeweils über den Stichprobenwerten. Im dargestell-ten Fall wurde für die Bandbreite der Wert 1 gewählt.

die quadrierte Bandbreite die Varianz, die für alle Normalverteilungen gleich ist:

P(x) =1

2n

n

∑i=1

1 + erf(−x− xi√

2h2

). (2.30)

Die Abbildung 2.2 visualisiert das Konzept der Kerndichteschätzung. Über je-dem Element der Stichprobe (rote Kreuze) liegt eine Normalverteilung (grün).Als Bandbreite wurde in diesem Beispiel 1 gewählt. Die Dichtefunktion (blaueKurve) ergibt sich aus der Überlagerung der einzelnen Normalverteilungen. Esist gut zu erkennen, dass in den Bereichen, wo sich die einzelnen Kernel Funktio-nen überlappen, die Dichtefunktion hohe Dichtewerte aufweist. Die Aufteilungder Stichprobe suggeriert, dass die ihr zu Grunde liegende Wahrscheinlichkeits-funktion zwei Modi hat. Diese Eigenschaft wird von der Dichtefunktion model-

15

Page 24: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

2 Grundlagen und Stand der Forschung

liert.Die Bandbreite spielt eine zentrale Rolle für die Form einer Kerndichteschätzung.Große Werte glätten die entstehende Dichtefunktion, während sehr kleine Wertedie Funktion zu einer Ansammlung von einzelnen kleinen Spitzen degenerierenlassen. Die Wahl der richtigen Bandbreite ist daher entscheidend für eine guteKerndichteschätzung.

2.1.4 Q-Q-PlotsIm vorangegangenen Abschnitt wurde bereits erläutert, wie mit Hilfe einer Stich-probe eine Wahrscheinlichkeitsverteilung geschätzt werden kann. Andersrum istes häufig aber ebenso interessant zu bestimmen, wie gut eine empirische Stich-probe von einer theoretisch geschätzten Verteilung beschrieben wird. Ein Werk-zeug hierzu sind die Q-Q-Plots. In diesem Abschnitt sollen ihre Eigenschaftenerläutert werden.Um Q-Q-Plots zu erklären, muss zunächst der Begriff des Quantils eingeführtwerden. Ein Quantil ist ein Maß in der Statistik, das anschaulich mit einen Schwell-wert verglichen werden kann (vgl. [Geo04, S. 225]). Das 25%-Quantil ist der Punkteiner Verteilung, von dem aus 25% der Fläche der Dichtefunktion links diesesWertes liegen. Daher ist das Quantil eng verknüpft mit der kumulativen Vertei-lungsfunktion. Darüber lässt sich das 25%-Quantil als den Punkt beschreiben, andem die kumulative Dichtefunktion den Wert 0, 25 annimmt.Q-Q-Plots vergleichen die Quantile einer Stichprobe mit den Quantilen der fürdiese Stichprobe geschätzten Wahrscheinlichkeitsfunktion. Die Quantile der Stich-probe werden hier als empirische Quantile und die der Wahrscheinlichkeitsfunk-tion als theoretische Quantile bezeichnet. Bei einer aufsteigend sortierten Stich-probe R = {x1, . . . , xn}mit n Elementen entspricht der i-te Wert dem empirischeni/(n + 1)-Quantil (vgl. [HEK09, S. 847]). Als Formel ausgedrückt ist das empiri-sche Quantil eqi zum i-ten Wert

eqi =i

n + 1. (2.31)

Dieses Quantil wird in die inverse kumulative Verteilungsfunktion P−1(x) dergeschätzten theoretischen Verteilung eingesetzt, um den theoretischen Wert desQuantils zu bestimmen:

yi = P−1(eqi). (2.32)

16

Page 25: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

2.1 Statistik

−2 −1 0 1 2

−2

−1

0

1

2

Theoretisches Quantil

Empi

risc

hes

Qua

ntil

Abbildung 2.3: Die Abbildung zeigt einen Q-Q-Plot zu einer exemplarischenMenge von Stichproben aus einer Normalverteilung. Die blaueKurve zeigt den Verlauf der theoretischen Quantile im Verhältniszu den empirischen Quantilen. Die rote Linie dient als Referenz.

Anschließend werden die empirischen Quantile xi gegen die theoretischen Quan-tile yi abgetragen. Wenn die geschätzte Verteilung die Stichprobe korrekt be-schreibt, liegen alle Werte auf der ersten Winkelhalbierenden. Je mehr die Wer-te von dieser Funktion abweichen, desto weniger genau ist die Repräsentationder Stichprobe durch die Verteilung. Die Abbildung 2.3 stellt exemplarisch einenQ-Q-Plot dar. Die empirischen Quantile sind gemäß dem oben beschriebenen Ab-lauf gegen die theoretischen Quantile abgetragen. Bei einer perfekten Modellie-rung der Daten würden alle so entstandenen Paare auf der Geraden f (x) = xliegen. Diese ist in der Abbildung durch eine rote Referenzlinie dargestellt.Der Q-Q-Plot dient der visuellen Überprüfung, ob eine Stichprobe einer vorge-gebenen Verteilung folgt. Diese visuelle Überprüfung lässt sich jedoch auch zah-lenmäßig ausdrücken. Je weiter ein Punkt des Q-Q-Plots von der vorgegebenenGerade abweicht, desto schlechter stimmt der in der Stichprobe gemessene Wertmit dem erwarteten Wert überein. Darüber lässt sich ein Maß definieren, in wieweit eine theoretische Verteilung eine gegebene Stichprobe modelliert. Der Ab-stand jedes Punktes des Q-Q-Plots zur Funktion f (x) = x wird quadriert, alleQuadrate werden summiert und das Ergebnis gemittelt. Diese durchschnittliche

17

Page 26: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

2 Grundlagen und Stand der Forschung

Summe der Fehlerquadrate ist bei einer guten Modellierung klein, während siefür schlechte Modellierungen groß wird.

2.2 Mustererkennung

Die Mustererkennung ist einer der am weitesten erforschten Teilgebiete der In-formatik [Anz92]. Generell behandelt sie die Simulation von perzeptiven Fähig-keiten des Menschen mit Hilfe von Computern bzw. Maschinen [Nie83]. Dabeigeht es nicht darum, die menschlichen Fähigkeiten biologisch korrekt zu kopie-ren, sondern ähnliche Abläufe zu modellieren [Nie83]. Duda et al. definieren dieMustererkennung als die Sammlung von Rohdaten und die anschließende Aus-führung einer Aktion, basierend auf der Kategorie der entsprechenden Muster[DHS01, S. 1].Das Forschungsgebiet der Mustererkennung ist groß und eng verknüpft mit denBereichen des maschinellen Lernens oder der künstlichen Intelligenz [Anz92].Aus den vielen Themen sind für diese Arbeit zwei spezielle für diese Arbeit rele-vant. Die Ergebnisse von Musterklassifikationssystemen sind die Grundlage fürdie Meta Recognition. Zudem wird in dieser Arbeit die Meta Recognition auf dasInformation Retrieval angewandt, um die Eignung in anderen Aufgabenfeldernzu zeigen. In diesem Kapitel sollen daher die Grundlagen für Musterklassifikati-on und Information Retrieval gelegt werden.Zunächst werden einige gängige Definitionen eingeführt (Abschnitt 2.2.1). An-schließend wird der Bereich der Musterklassifikation einführend beschrieben (Ab-schnitt 2.2.2). Abschließend wird das Information Retrieval erläutert (Abschnitt2.2.3).

2.2.1 Definitionen

In diesem Abschnitt werden gängige Definitionen und Konzepte der Musterer-kennung vorgestellt. Dabei orientiert sich diese Arbeit an dem Werk von Nie-mann [Nie83]. Der interessierte Leser sei daher für weitere Definitionen auf daserwähnte Lehrbuch verwiesen.In der Einleitung dieses Abschnitts wurde erwähnt, dass die Mustererkennungim Zusammenhang mit dem Sammeln von Rohdaten steht, also den Eindrücken

18

Page 27: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

2.2 Mustererkennung

aus einer bestimmten Umwelt. Formal wird diese Umwelt definiert als Mengevon messbaren Größen b:

U = {ib(x)|i = 1, 2, . . .}. (2.33)

Generell kann die Dimension der verschiedenen Funktionen b unterschiedlichsein.Oftmals ist es aber gar nicht wünschenswert oder möglich alle messbaren Größenauszuwerten, sondern nur eine Untermenge von interessanten Funktionen. Einsogenannter Problemkreis PK ist ein Ausschnitt aus der Umwelt U. Er umfasstnur Funktionen f eines bestimmten Anwendungsbereiches (vgl. [Nie83, S. 12]):

PK = {if(x)|i = 1, 2, . . .} ⊂ U. (2.34)

Hierbei ist zu beachten, dass jetzt alle Funktionen f eines Problemkreises die glei-che Dimension haben (vgl. [Nie83, S. 12]). Die Elemente der Menge PK werdenals Muster bezeichnet.Ein Beispiel für Muster sind Grauwertbilder. Sie lassen sich beschreiben als g(x, y),wobei der Funktionswert den Wert an der Stelle (x, y) im Bild widerspiegelt (vgl.[Nie83, S. 13]).Im Allgemeinen können bestimmte Muster gruppiert werden. Werden zum Bei-spiel Schriftzeichen in Grauwertbildern gespeichert, können alle gleichen Schrift-zeichen zu einer Gruppe zusammengefügt werden, die eine Untermenge des Pro-blemkreises bildet. Diese Untermenge wird im Kontext der Mustererkennung alsKlasse bezeichnet. Formal ergeben sich die Klassen Ki als eine Zerlegung des Pro-blemkreises PK in k oder k + 1 nicht leere, disjunkte Teilmengen:

Ki 6= ∅, i = 1, . . . , k (2.35)

Ki ∩ Kj = ∅, i 6= j (2.36)k⋃

i=1

Ki = PK oderk⋃

i=0

Ki = PK. (2.37)

Basierend auf den aufgeführten Überlegungen, definiert Niemann die Musterer-kennung wie folgt: ”Die Mustererkennung beschäftigt sich mit den mathematisch-technischen Aspekten der automatischen Verarbeitung und Auswertung von Mus-tern” (vgl. [Nie83, S. 13]).Aus der weiter oben stehenden Definition von Duda et. al. und dieser Definiti-on von Niemann ist ersichtlich, dass das Feld der Mustererkennung ein breites

19

Page 28: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

2 Grundlagen und Stand der Forschung

Aufnahme Vorverarbeitung Merkmale Klassifikation

LernenStichprobe

Abbildung 2.4: Die Abbildung zeigt den Verlauf einer Musterklassifikation nachNiemann (angelehnt an die Abbildung aus [Nie83, S.26]). Die Far-ben fassen die einzelnen Schritte thematisch zusammen. Alle grü-nen Teile sind zuständig für die Darstellung eines Musters in ma-schinell auswertbarer Form. Die blauen Bereiche befassen sich mitdem Training des Klassifikators. Die Klassifikation steht als eige-ner Teil am Ende des Systems (rot).

Spektrum an Verfahren abdeckt. Eines der zentralen Gebiete der Mustererken-nung ist die Musterklassifikation. Für diese Arbeit hat sie besondere Relevanz, dadie Meta Recognition als Erweiterung von Musterklassifikationsverfahren entwi-ckelt wurde. Im folgenden Abschnitt wird sie daher genauer untersucht.

2.2.2 MusterklassifikationDie Aufgabe der Musterklassifikation ist die Zuordnung eines Musters pf(x) zueiner Klasse Ki. Um dies zu erreichen, verlangt Niemann, dass Muster Merkma-len besitzen, ”die für seine Zugehörigkeit zu einer Klasse charakteristisch sind.”(vgl. [Nie83, S. 20]) Ein Merkmalsvektor ist die Zusammenführung dieser Merkma-le zu einem Vektor. Es wird von Merkmalsvektoren zu Mustern gleicher Klassengefordert, dass sie im Merkmalsraum nah beieinander liegen (vgl. [Nie83, S. 20]).Das Klassifikationsproblem ist dann die Abbildung

pc→ Ki ⊂ PK, (2.38)

wobei pc der Merkmalsvektor zum Muster pf(x) ist. Die Abbildung 2.4 visua-lisiert die Einzelschritte eines Systems zur Musterklassifikation nach Niemann.Zunächst werden entsprechende Muster aus der Umwelt aufgenommen. An-schließend können sie in einem Vorverarbeitungsschritt für die spätere Klassi-fikation angepasst werden. So enthalten Muster teils störende Einflüsse, die indiesem Schritt minimiert werden können, um ein möglichst ideales Muster zuerhalten. Nach diesem Schritt werden schließlich die Merkmale aus den Mustern

20

Page 29: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

2.2 Mustererkennung

gewonnen. Die drei Schritte lassen sich unter dem Stichwort Merkmalsextrakti-on zusammenfassen (Abbildung 2.4, grüne Abschnitte). Mit einer Stichprobe vonMerkmalsvektoren kann anschließend ein Klassifikator trainiert werden (blaueAbschnitte). Dabei ist das Ziel, dass der Klassifikator lernt, wie sich die Merk-malsvektoren zu den jeweiligen Klassen zuordnen lassen. Diese Art von Ler-nen wird in der Musterklassifikation als überwachtes Lernen bezeichnet. Hier istes wichtig, dass jeder Merkmalsvektor , der zum Training des Klassifikators be-nutzt wird, mit der Klasse seines zugehörigen Musters annotiert ist. Die Mengean Merkmalsvektoren, mit der ein Klassifikator trainiert wird, wird als Trainings-menge oder Trainingsstichprobe bezeichnet. Ist das Training abgeschlossen, kannder Klassifikator neue Merkmalsvektoren klassifizieren (roter Abschnitt).Im Folgenden soll die Klassifikation an Hand eines Klassifikators genauer be-schrieben werden. Hierfür wird der Nächste Nachbar Klassifikator (engl. nearestneighbor classifier) benutzt, da er im weiteren Verlauf der Arbeit verwendet wird.Wie weiter oben bereits erwähnt, ist eine der Grundannahmen nach Niemann,dass Merkmalsvektoren zu Mustern gleicher Klassen im Merkmalsraum kom-pakt zusammen liegen. Der Nächste Nachbar Klassifikator macht sich diese An-nahme zu Nutze, in dem er einem zu klassifizierenden Merkmalsvektor die Klas-se zuordnet, zu der auch der am nächsten liegende Merkmalsvektor der Trai-ningsstichprobe gehört. Das Training des Klassifikators umfasst daher nichts wei-teres als eine Speicherung aller fürs Training zur Verfügung gestellten Merkmals-vektoren. Um zu bestimmen, welcher dieser Trainingsvektoren am nächsten zueiner zu klassifizierenden Eingabe ist, muss zuerst eine Metrik gewählt werden,mit der der Abstand zweier Vektoren im Merkmalsraum bestimmt werden kann.Eine häufig eingesetzte Familie von Metriken sind

d(r)(c, jc) =

(n

∑i=1|ci − jci|

) 1r

, r = 1, 2, . . . . (2.39)

Hierbei handelt es sich um die Familie der Distanzen. Von diesen Distanzmetri-ken sind drei Fälle insbesonders häufig anzutreffen. Die Metrik für r = 1 wirdals Manhattan- oder Taxi-Metrik bezeichnet. Den Namen verdankt sie dem Bildeiner Taxifahrt durch den Stadtteil Manhattan in New York City. Die kürzesteStrecke ist hier nur in Sonderfällen die Luftlinie zwischen zwei Punkten. Viel-mehr müssen jeweils orthogonale Straßen in einem Treppenmuster abgefahrenwerden. Die zweite oft anzutreffende Metrik ergibt sich für r = 2 und wird als

21

Page 30: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

2 Grundlagen und Stand der Forschung

euklidischer Abstand bezeichnet. In einem euklidischen Raum stellt sie die Di-stanz einer direkten Verbindung zweier Punkte dar. Die letzte der drei Metrikenist die Maximums-Metrik, die sich für r = inf ergibt. Bei dieser Metrik wird derAbstand zweier Punkte durch die betragsmäßig größte Komponente des Verbin-dungsvektors definiert.Neben diesen drei Spezialfällen kann jedoch auch jede beliebige andere Metrikeingesetzt werden (vgl. [Nie83, S. 355]). Der Nächste Nachbar Klassifikator ord-net den zu klassifizierenden Merkmalsvektor gemäß folgender Regel einer Klassezu: Sei R = {1c, 2c, . . . , nc} eine Stichprobe mit k Klassen, Ri ⊂ PK die Menge al-ler Stichprobenelemente zur Klasse Ki und c ein Merkmalsvektor, dessen Klassezu bestimmen ist, dann

klassifiziere c ∈ Ki, wenn d(c, mc) = minj

d(c, jc) und mc ∈ Ri. (2.40)

2.2.3 Information RetrievalDie Meta Recognition wurde entwickelt, um die Ergebnisse von Musterklassifi-kationsverfahren zu verifizieren. Doch ermutigen Scheirer et al. dazu, die MetaRecognition auch in anderen Feldern einzusetzen [SRMB11]. In Zuge dieser Ar-beit wurde daher die Meta Recognition auf einem Teilbereich des InformationRetrieval untersucht, dem Word Spotting. Im folgenden Abschnitt werden daherzunächst die nötigen Grundlagen des Information Retrieval dargelegt (Abschnitt2.2.3.1). Anschließend wird das Word Spotting vorgestellt(Abschnitt 2.2.3.2). Eswird beschrieben, wie dieses Anwendungsfeld des Information Retrieval um dieMeta Recognition erweitert werden kann, um die Ergebnisse zu verbessern.Die Grundlagen und Definitionen zum Information Retrieval basieren in großenTeilen auf [MRS09] und [Fer03]. Für tiefergehende Informationen sei daher aufdiese Literatur verwiesen.

2.2.3.1 Grundlagen und Definitionen

Das Information Retrieval beschäftigt sich mit der Beschaffung und Auffindungvon Informationen aus großen Datenmengen (vgl. [MRS09, S. 1]). Einem Infor-mation Retrieval System unterliegt typischerweise eine große Datenbank, die ei-ne unstrukturierte Anzahl von Informationen besitzt. Unstrukturiert bedeutet indiesem Kontext, dass die Daten nicht semantisch klar strukturierbar sind (vgl.

22

Page 31: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

2.2 Mustererkennung

[MRS09, S. 1]). Ziel des Information Retrieval ist es, aus dieser Menge an Daten ei-ne Auswahl zu generieren die einem bestimmten Informationsbedürfnis entspricht.Informationsbedürfnis bezeichnet hier das Thema, über das es Informationen zugenerieren gilt. Es steht im Kontrast zu der tatsächlichen Anfrage an das Infor-mation Retrieval System und ist davon klar abzugrenzen (vgl. [MRS09, S. 5]).Die Anfrage an ein solches System wird als Query bezeichnet. Die Rückgabeele-mente, die ein Information Retrieval System basierend auf einem Query gene-riert, werden als Dokumente bezeichnet. Es ist anzumerken, dass es sich bei Do-kumenten nicht zwangsläufig um geschrieben Dokumente handeln muss. His-torisch gesehen wurden Information Retrieval Systeme zur Auffindung von wis-senschaftlicher Literatur entwickelt, weswegen sich der Name eingebürgert hatte(vgl. [Fer03, S. 1]). Er wird aber auch bei nicht textuellen Dokumenten verwendet.Ein Dokument wird als relevant bezeichnet, wenn es in Bezug zum Informations-bedürfnis wichtige Informationen beinhaltet (vgl. [MRS09, S. 5]).Information Retrieval Systeme werden daher danach beurteilt, wie viele von denzu einer Anfrage zurückgelieferten Dokumenten relevant sind und wie vollstän-dig die Rückgabe ist in Bezug zu allen relevanten Dokumenten in der Datenbank(vgl. [MRS09, S. 152]). Diese beiden Maße werden als Precision und Recall bezeich-net. Die Precision einer Rückgabe ist der Anteil an relevanten Dokumenten ge-genüber der Gesamtanzahl aller zurückgegebener Dokumente:

Precision =|zurückgegebene relevante Dokumente|

|zurückgegebene Dokumente| . (2.41)

Der Recall ist der Anteil aller relevanten Dokumente der Rückgabe gegenüberallen relevanten Dokumenten in der Datenbank:

Recall =|zurückgegebene relevante Dokumente||relevante Dokumente im Datensatz| . (2.42)

Ziel ist, dass beide Maße für eine Anfrage möglichst groß werden. Doch handeltes sich hierbei um konkurrierende Maße, bei welchen Optimierung des einenMaßes zur Verschlechterung des anderen führt (vgl. [MRS09, S. 154]). Daher istes wünschenswert beide Maße in geeigneter Form zusammenzuführen, um eineneinzigen Wert zu erhalten. Um Precision und Recall in ein Verhältnis zu setzen,kann das so genannte F-Maß (engl. F measure) verwendet werden. Es handelt sichdabei um das gewichtete harmonische Mittel aus Precision und Recall:

Fα =(α2 + 1) · Precision · Recall

α2 · Precision + Recall. (2.43)

23

Page 32: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

2 Grundlagen und Stand der Forschung

0 0.2 0.4 0.6 0.8 1

0.4

0.6

0.8

1

Recall

Prec

isio

n

Abbildung 2.5: Die Abbildung zeigt den exemplarischen Verlauf einer Precision-Recall-Kurve. Die blaue Kurve stellt dabei den tatsächlichen Ver-lauf dar und weist das typische Sägezahnmuster auf. Die roteKurve verwendet die interpolierte Precision.

Beim F-Maß ist α der freie Parameter, über den bestimmt werden kann, ob Preci-sion oder Recall höher gewichtet wird. Bei α = 1 werden beide gleich gewichtet,bei α < 1 wird die Precision und bei α > 1 der Recall höher gewichtet.Die drei vorgestellten Maße operieren auf ungeordneten Rückgabemengen vonDokumenten (vgl. [MRS09, S. 158]). In vielen Anwendungen ist aber der Fall an-zutreffen, in dem die Rückgabe eine sortierte Liste von Dokumenten ist. Das In-formation Retrieval System sortiert hierbei die Liste in absteigender Relevanz.Werden für die Rückgabeliste Untermengen mit den jeweils k besten Dokumen-ten erzeugt, kann für jede dieser Untermengen ein eigener Precision- und Recall-Wert bestimmt werden. Typischerweise ändern sich Precision und Recall wenn kvariiert wird. Trägt man die Precision in Abhängigkeit vom Recall in einer Kurvegegeneinander ab entsteht eine Precision-Recall-Kurve. Die Abbildung 2.5 veran-schaulicht exemplarisch den Verlauf einer solchen Kurve. In der Abbildung istdie blaue Kurve die Precision-Recall-Kurve. Typisch für diese Form der Darstel-lung ist das sogenannte Sägezahnmuster. Oftmals ist es erwünscht dieses Mus-ter zu glätten und das gebräuchlichste Konzept hierfür ist eine Interpolation derPrecision-Werte (vgl. [MRS09, S. 158]):

Precisionint(r) = maxr′≥r

Precision(r). (2.44)

24

Page 33: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

2.2 Mustererkennung

Die Bezeichnung Precision(r) deutet in der Formel die Abhängigkeit der Precisi-on vom Recall r an. Durch die Interpolation bekommt die Precision-Recall-Kurveeine Treppenform. Die interpolierte Precision ist in der Abbildung 2.5 als roteKurve gegen den Recall abgetragen.Ähnlich wie der Q-Q-Plot in der Statistik, ist die Precision-Recall-Kurve ein grafi-sches Werkzeug, um die sortierte Rückgabe von Information Retrieval Systemenzu untersuchen. Doch besteht auch hier oft das Bedürfnis danach, die Eigenschaf-ten der Kurve in einem numerischen Wert festzuhalten (vgl. [MRS09, S. 159]).Das bekannteste Maß hierfür ist die Average Precision [Chi09, TS06, MRS09]. Eshandelt sich dabei um die Größe der Fläche unter der interpolierten Precision-Recall-Kurve. Sei Precisionk die Precision der ersten k Elemente einer sortiertenRückgabeliste mit n Elementen und rel(k) eine Funktion, die 1 ist, wenn das k-teDokument relevant ist und ansonsten 0, dann ist die Average Precision definiertals

Average Precision =

n∑

k=1Precisionk · rel(k)

n∑

k=1rel(k)

. (2.45)

Eine größere Average Precision bedeutet eine höhere Fläche unter der Precision-Recall-Kurve und ist daher besser als eine kleinere. Die Average Precision beziehtsich auf die sortierte Antwort für einen Query an das Information Retrieval Sys-tem. Zur Auswertung mehrerer Anfragen kann die Mean Average Precision (MAP)benutzt werden (vgl. [MRS09, S. 160]). Hierbei handelt es sich um den Durch-schnitt über alle erzeugten Average-Precision-Werte:

MAP =

m∑

q=1Average Precision(q)

m. (2.46)

In der Formel steht m für die Anzahl aller Queries und Average Precision(q) fürdie Average Precision des q-ten Queries. Neben der Mean Average Precision istfür den Fall mehrerer Anfragen an ein Information Retrieval System die MeanRecall (MR) definiert als

MR =

n∑

q=1Recall(q)

n. (2.47)

25

Page 34: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

2 Grundlagen und Stand der Forschung

2.2.3.2 Word Spotting

Während das Information Retrieval sich früher hauptsächlich mit maschinell les-baren Textdokumenten beschäftigte, sind in den letzten Jahren immer mehr Ver-fahren entstanden, die Information Retrieval auch auf anderen Aufgabengebietenermöglichen. Beispielsweise liefern Verfahren aus dem Bereich des Image Retrie-vals zu einem Query in Form eines digitalisierten Bildes Bilder mit gleichen Ei-genschaften [AKJ02, SNF02]. Hierbei bedient sich das Information Retrieval anMethoden der Mustererkennung. Typischerweise werden für alle Bilder in derDatenbank Ähnlichkeitswerte zu einem Query-Bild erzeugt, die numerisch an-geben, wie sehr sie mit der Anfrage übereinstimmen. Anschließend werden dieDatenbankelemente mit den besten Werten zurückgegeben.Eine andere Form des Information Retrieval, die sich ebenfalls mit digitalisiertenBildern beschäftigt, ist das Word Spotting. Motiviert wird dieses Feld durch dieEinschränkungen von Systemen zur automatischen Schrifterkennung. Währendmaschinell gedruckter Text von diesen Systemen oft mit geringer Fehlerrate er-kannt werden kann, offenbaren sie große Probleme bei der Erkennung von hand-geschriebenen Dokumenten [RM03]. Insbesondere historische Dokumente sinddavon betroffen, da die automatische Erkennung durch Rauschen in den digita-lisieren Bildern, verblassender Tinte oder der Schreibweise in Schreibschrift zustark beeinträchtigt wird. Doch beinhalten diese alten Schriften oft wertvolle In-formationen, deren Extraktion für Historiker von besonderem Wert ist [KLP01].Ein handschriftliches Transkribieren ist hier jedoch äußerst kostenintensiv undzeitaufwendig [RM03]. Dieser Ablauf kann wesentlich effizienter gestaltet wer-den, wenn statt aller nur eine kleine Auswahl von Wörtern annotiert werdenmuss. Dieses Konzept unterliegt dem Word Spotting. Ziel ist es, basierend aufeinem Suchwort, alle Vorkommen dieses Wortes in einem digitalisierten Textdo-kument zu finden. Es erleichtert sich so die Indizierung, da nicht mehr jedes Wortbearbeitet werden muss, sondern alle gleichen Wörter gruppiert werden könnenund dann den jeweiligen Gruppen Indizes zugeordnet werden können [RM03].Viele Verfahren des Word Spottings beruhen darauf, dass bestimmten Bereichendes digitalisierten Texdokuments Ähnlichkeitswerte zuordnet und die Bereichemit den besten Werten zurückgegeben werden. Da die Meta Recognition genauauf solchen Ähnlichkeitswerten beruht, kann sie genutzt werden, um in einemNachbearbeitungsschritt nach dem Word Spotting die Ergebnisliste zu verbes-

26

Page 35: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

2.2 Mustererkennung

sern. In dieser Arbeit wird daher ein Word-Spotting-Verfahren in Kombinationmit der Meta Recognition eingesetzt und untersucht, ob durch die Meta Recogni-tion die Ergebnisliste verbessert werden kann. Für das Word Spotting wird dasVerfahren des Bag of Feature Hidden Markov Model (BoF-HMM) genutzt [RRF13].Es wurde ausgesucht, da es sich in vielen Experimenten gegen andere Word-Spotting-Verfahren durchsetzen und bessere Ergebnisse erzielen konnte. Dabeikommt das BoF-HMM ohne eine vorherige Segmentierung der Wörter aus demText aus. Vielmehr wird ein Fenster über das digitalisierte Bild geschoben undjeder so entstandene Ausschnitt untersucht. Ein solcher Bildausschnitt wird alsPatch bezeichnet [RRF13]. Ein Hidden Markov Model entscheidet anschließendzu jedem Patch, ob er das gesuchte Wort enthält. Die Patches mit der höchstenWahrscheinlichkeit werden anschließend als Liste zusammengefasst zurückge-geben. Die Abbildung 2.6 visualisiert den Ablauf des BoF-HMM-Verfahrens. Zuerkennen sind die sechs Stufen dieses Verfahrens. Für die Arbeit ist der genaueAblauf der Merkmalsextrahierung nicht von Bedeutung, da lediglich auf die Er-gebnisse aus [RRF13] zurückgegriffen wird, um die Meta Recognition auszufüh-ren. Diese Ergebnisse liegen in Form von Ähnlichkeitswerten vor, die angeben,ob ein Patch dem Query entspricht oder nicht.

27

Page 36: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

2 Grundlagen und Stand der Forschung

Abbildung 2.6: Die Grafik zeigt den exemplarischen Ablauf des Word Spottingsmit Hilfe eines Bag-of-Features Hidden Markov Models. Im ers-ten Schritt liegt das Bild eines Dokuments in Grauwertstufenvor (1). Anschließend werden die Merkmale eines Patches ex-trahiert (2-3). Für die Suche nach einem bestimmten Wort wirdein Hidden Markov Model mit dem Query-Patch trainiert (4).Anschließend wird ein Fenster über das gesamte Dokument ge-schoben und der jeweilige Ausschnitt auf den Query-Patch hinuntersucht (5). Zum Schluss werden die Patches zurückgegeben,die die höchste Übereinstimmung mit dem Query aufweisen (6).(Entnommen aus [RRF13])

28

Page 37: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

3META RECOGNITION

Die Meta Recognition stellt das zentrale Thema dieser Arbeit dar und soll in die-sem Kapitel daher ausführlich dargestellt und erläutert werden. Es handelt sichdabei um ein noch sehr junges Verfahren, welches zur Analyse der Ergebnissevon Mustererkennungsverfahren entwickelt wurde. Es existieren zwei Formen:Zum einen die statistische Meta Recognition [SRMB11], zum anderen die MetaRecognition mit maschinellem Lernen [SRPB12]. Im Kontext dieser Arbeit liegtdas Hauptaugenmerk auf der statistischen Meta Recognition. Falls im folgendenVerlauf von Meta Recognition die Rede ist, ist daher implizit immer die statis-tische Variante gemeint. Sollte die Meta Recognition mit maschinellem Lernengemeint sein, wird dies explizit erwähnt.Das Kapitel beginnt zunächst mit einer Motivation der Meta Recognition undeiner Einordnung in andere Post-Processing-Verfahren (Abschnitt 3.1). Anschlie-ßend wird das Konzept der Meta Recognition vorgestellt und ihr Ablauf genauerläutert (Abschnitt 3.2). Der Kernpunkt der Meta Recognition ist das Schätzeneiner bestimmten Wahrscheinlichkeitsverteilung. Diese wird deswegen im an-schließenden Abschnitt genau untersucht (Abschnitt 3.3).Zum Schluss wird auf eine Anpassung eingegangen, mit deren Hilfe sich die

29

Page 38: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

3 Meta Recognition

decision

post-processing

classification

feature extraction

segmentation

sensing

sensing

Abbildung 3.1: Die Grafik zeigt den konzeptionellen Ablauf eines Musterklassi-fikationssystems nach Duda et. al. (Entnommen aus [DHS01, S.10]).

Meta Recognition beispielsweise in Kombination mit einem Nearest-Neighbor-Klassifikator einsetzen lässt (Abschnitt 3.4).

3.1 Einordnung und verwandte Arbeiten

Nach Niemann endet die Musterklassifikation nachdem der Merkmalsvektor klas-sifiziert wurde (vgl. Abschnitt 2.2.2). Duda et. al. argumentieren jedoch, dass nochein Schritt nach der Klassifikation zu erfolgen hat, der als Post Processing bezeich-net wird. Dies wird damit begründet, dass ein Klassifikator eine Empfehlung er-zeugt, die mit gewissen Kosten behaftet ist und im Post Processing überprüftwerden kann, ob die Empfehlung akzeptiert werden soll oder nicht [DHS01, S.10]. Die Abbildung 3.1 verdeutlicht diese Erweiterung. Während bis zur Klas-sifikation alle Schritte denen von Niemann entsprechen, wird vor der Entschei-

30

Page 39: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

3.1 Einordnung und verwandte Arbeiten

dung über die Klassifikation noch ein Nachbearbeitungsschritt eingeführt. Zielist dabei die Fehlerrate des Klassifikationssystems zu verringern [SRPB12]. Diesist besonders bei sicherheitskritischen Systemen von großer Bedeutung, die ihreEntscheidung auf Basis automatischer Musterklassifikation fällen. Die Frage, diesich hier stellt ist, ob und auf welche Weise festgestellt werden kann, ob ein Mus-terklassifikationssystem eine bestimmte Eingabe korrekt oder falsch klassifiziert[SRMB11].Insbesondere aus dem Bereich der Biometrik hat sich in den letzten Jahren ei-ne Fülle von sogenannten Post Verification- oder Post Recognition-Verfahren ent-wickelt. In diesen höchst sicherheitskritischen Systemen werden häufig mehre-re Erkennungssysteme benutzt, um die Fehlerrate zu minimieren [BF95, PK02].So werden zur Identifikation einer Person beispielsweise sowohl ein Gesichts-als auch ein Fingererkennungssystem eingesetzt. Die Frage die sich hierbei stelltist, wie die Ergebnisse der einzelnen Systeme am besten fusioniert werden. Diesmotivierte die Entwicklung verschiedener Verfahren, die Klassifikationsergeb-nisse bewerten. Generell kann die Fusion an einem von vier Punkten eintreten[NCDJ08]: bei der physischen Aufnahme der Signale, der Extrahierung der Merk-male, der Entscheidungswerte oder nach der Entscheidung der einzelnen Klassi-fikatoren. Mit Entscheidungswerten sind hierbei die numerischen Werte gemeint,auf deren Basis die jeweiligen Klassifikatoren ihre Entscheidungen treffen. Bei-spielsweise sind die Distanzen des Nächsten Nachbar Klassifikators eine mögli-che Form von Entscheidungswerten. In der englischsprachigen Literatur hat sichhier der Begriff Decision Score oder einfach nur Score durchgesetzt (beispielsweise[NCDJ08, PMK09, SRMB11]).Viele Verfahren bewerten das Ergebnis eines Klassifikators allein auf Grundlagedes Scores zu der Klasse, die im Klassifikationsschritt ermittelt wurde [ARBC08].Die Abbildung 3.2 verdeutlicht dieses Konzept. Solche Systeme machen von derAnnahme Gebrauch, dass alle Klassen eine ähnliche Verteilung aufweisen. Diesbedingt, dass das System fehleranfällig wird, wenn die Klassen ungleich verteiltsind. Für manche Klassen ist ein fester Schwellwert in einem solchen Fall viel zuhoch, während der selbe Wert für andere Klassen viel zu gering ist [ARBC08].Dieses Problem kann offensichtlich umgangen werden, wenn die Verteilungenbestimmt werden können. Doch ist es insbesondere in der Biometrik häufig derFall, dass zu wenig Stichprobenelemente vorliegen, um die Verteilungen gut ge-nug zu schätzen [ARBC08, SRMB11].

31

Page 40: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

3 Meta Recognition

Abbildung 3.2: Die Abbildung zeigt eine einfache Form der Bewertung ei-nes Klassifikators. Das Ergebnis wird nur auf Basis der durchden Klassifikator bestimmten Klasse gewählt (entnommen aus[ARBC08]).

Der Ansatzpunkt ist daher eine vom Klassifikator bestimmte Klasse bzw. ihrenzugehörigen Score mit ihren Nachbarn, also den anderen Scores, zu vergleichen.Der Score zu der vom Klassifikator bestimmten Klasse wird von einer Gruppevon Scores zu falschen Klassen begleitet, auf deren Basis er normalisiert werdenkann. Dieses Verfahren wird als Cohort Analysis bezeichnet [ARBC08, NCDJ08,PMK09]. Das gebräuchlichste Verfahren für die Cohort Analysis ist die T-norm[PMK09]. Sei C eine Kohorte mit Mittelwert µ und Varianz σ und y der Score zuder vom Klassifikator bestimmten Klasse, dann ist die T-norm yT von y gegebendurch

yT =y− µ

σ. (3.1)

Abwandlungen der T-norm und andere Formen wurden in verschiedenen Ar-beiten entwickelt und untersucht. Mariétho und Bengio nutzen statt der T-normeine generalisierte Form [MB05], von der jedoch gezeigt wird, dass sie nicht signi-fikant bessere Ergebnisse liefert, als die T-norm. Aggarwal et al. argumentieren,dass der Mittelwert und die Varianz nicht zwangsläufig die Kohorte repräsentie-ren [ARBC08, PMK09]. Sie schlagen vor den besten Score dadurch zu normalisie-ren, indem sie ihn durch den zweitbesten teilen.Aus allen Post-Recognition-Verfahren sticht die Meta Recognition von Scheirer etal. als besonders hervor, da sie eine theoretische Begründung dafür liefert, wie-so ihr Einsatz gute Ergebnisse erzeugt [SRMB11]. Genau wie Poh et al. [PMK09],nutzen Scheirer et al. für die Meta Recognition nicht verschiedene Mengen vonKohorten, sondern fassen alle Scores einer Klassifikation zu einer Kohorte zu-

32

Page 41: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

3.1 Einordnung und verwandte Arbeiten

sammen. Anschließend wird untersucht, ob es sich bei dem besten Score umeinen Ausreißer in Bezug zu den restlichen Scores handelt. Die Meta Recogni-tion bewertet die Scores einer Eingabe ohne irgendwelches Vorwissen aus an-deren Score-Mengen zu verwenden. Dem gegenüber steht eine Form von Me-ta Recognition, die ihre Entscheidung auf Basis eines Klassifikators trifft. DieseArt der Meta Recognition wird als Machine Learning Meta Recognition bezeichnet[SRPB12]. Der Klassifikator wird mit einer vorher annotierten Testmenge trai-niert. Die einzelnen Elemente dieser Menge sind Vektoren von Scores, währendihre Annotierung binär ist und angibt, ob die Klassifikation des vor der MetaRecognition arbeitenden Systems korrekt war oder nicht. Scheirer et al. konntenzeigen, dass die Machine Learning Meta Recognition auf den von ihnen verwen-deten Testdatensätzen bessere Ergebnisse erzielte, als die statistische Form. Es istjedoch zu erwähnen, dass beide Verfahren mit ungleichen Vorraussetzungen an-treten. Die Machine Learning Meta Recognition benutzt das Vorwissen einer Trai-ningsdatenmenge, um eine neue Eingabe zu bewerten, während die statistischeMeta Recognition diese Bewertung nur an Hand der Eingabe vornimmt. Trotzder besseren Ergebnisse der Machine Learning Meta Recognition ist die statisti-sche Form aber nicht zu vernachlässigen. Liegt nur eine kleine Anzahl von Datenvor, ist es möglich, dass diese überhaupt nicht sinnvoll in Trainings- und Test-menge aufgeteilt werden können. Scheirer et al. verwenden in ihrer Arbeit zurMachine Learning Meta Recognition beispielsweise einen synthetisch erzeugtenDatensatz. Grundlage für diesen ist ein bekannter Datensatz aus der Biometrikmit lediglich 517 Testfällen. Für den verwendeten Klassifikator ist diese Anzahlviel zu klein, um sie in Trainings- und Testmenge zu unterteilen [SRPB12]. Diestatistische Meta Recognition kann im Gegensatz dazu auf diesem Datensatz pro-blemlos eingesetzt werden. Daher ist festzustellen, dass sie gegenüber der Machi-ne Learning Meta Recognition trotzdem ihre Berechtigung hat.Wie bereits zu Anfang des Kapitels erwähnt, ist die statistische Meta Recognitionder zentrale Punkt dieser Arbeit. In diesem Abschnitt wurde sie in das Feld derPost-Recognition-Verfahren eingeordnet und verwandte Verfahren vorgestellt. Imfolgenden Abschnitt wird der genaue Ablauf der Meta Recognition detailliert er-läutert.

33

Page 42: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

3 Meta Recognition

3.2 Konzeptioneller Aufbau

Im vorhergehenden Abschnitt wurde beschrieben, dass die Meta Recognition einPost-Recognition-Verfahren zur Überprüfung von Klassifikationsergebnissen ist.In diesem Abschnitt soll der genaue Ablauf ausführlich erläutert werden.Grundlegende Voraussetzung für die Meta Recognition ist, dass für alle demKlassifikationssystem bekannten Klassen ein sogenannter Score vorliegt, der an-gibt, wie groß die Übereinstimmung der zu klassifizierenden Eingabe mit derjeweiligen Klasse ist (siehe Abschnitt 3.1). Hierbei ist zu beachten, dass Scoresnicht die Wahrscheinlichkeiten darstellen, mit der die Eingabe einer Klasse ange-hören. Scores können generell jeden numerischen Wert annehmen. Sie stellen einMaß dar, mit dem die Ähnlichkeit einer Eingabe zu einer dem Klassifikationssys-tem bekannten Klasse ausgedrückt werden kann. Aus diesem Grund wird in derLiteratur auch der Begriff Similarity Score (Ähnlichkeitswert) verwendet. Ob einhoher oder niedriger Score größere Übereinstimmung bedeutet ist zunächst nichtwichtig. Scores werden üblicherweise zum Zeitpunkt der Klassifikation erzeugt.So sind etwa die Distanzen, die ein Nächster Nachbar Klassifikator erzeugt einemögliche Art von Scores.Die Meta Recognition untersucht anschließend als Post-Recognition-Schritt dieerzeugten Scores. Im Fall der Klassifikation soll ein Merkmalsvektor einer Klas-se zugeordnet werden (siehe Abschnitt 2.2.2). Der Score zu der Klasse, der derMerkmalsvektor angehört, wird als Match-Score bezeichnet, während alle ande-ren Scores als Non-Match-Scores bezeichnet werden [SRMB11]. Ein Mustererken-nungssystem produziert also genau dann ein falsches Ergebnis, wenn der besteScore nicht auch gleichzeitig der Match-Score ist.Eine Möglichkeit zur Überprüfung ist, dass der beste Score zu einem Merkmals-vektor mit einem Schwellwert verglichen wird. Ist der Score besser als der Schwell-wert, so wird Klassifikation als korrekt eingestuft, ansonsten als inkorrekt. DieAbbildung 3.3 visualisiert dieses Konzept. Zu sehen sind die Non-Match- undMatch-Verteilung, die über eine entsprechende Menge an Aufrufen des Musterer-kennungssystem ermittelt wurden, und ein Schwellwert t0. Der Merkmalsvektorwird in dem gezeigten Beispiel als falsch klassifiziert zurückgewiesen, obwohldie Klassifikation korrekt war. Der Fehler entsteht durch die Überlappung vonMatch- und Non-Match-Verteilung im Bereich der zu klassifizierenden Probe.Im Gegensatz zu Verfahren, die, wie etwa in [GP04], eine globale Match- und

34

Page 43: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

3.2 Konzeptioneller Aufbau

Abbildung 3.3: Die Abbildung zeigt exemplarisch den Post-Recognition-Schrittbei einer Klassifikation. Während bei einem festen Schwellwertdie korrekte Klassifikation zurückgewiesen wird, entscheidet dieMeta Recognition korrekt, dass richtig klassifiziert wurde. (Ent-nommen aus [SRMB11])

Non-Match-Verteilung aufstellen, arbeitet die Meta Recognition mit ausschließ-lich den Scores, die zu einer Eingabe des Klassifikationssystem erzeugt werden[SRMB11]. Das Problem, was sich hier ergibt, ist, dass zu wenig Scores vorliegenum die Match-Verteilung zu schätzen, es existiert schließlich nur ein Match-Score.Es liegen jedoch genug Non-Match-Scores vor, um eine Non-Match-Verteilungfür eine Klassifikation zu modellieren. Ist der beste Score der Match-Score, dannsollte er ein Ausreißer in Bezug zu der Non-Match-Verteilung sein [SRMB11].Die Ausreißererkennung läuft bei der Meta Recognition über einen Hypothesen-test ab. Sei S = {s1, s2, . . . , sn} eine Menge von sortierten Scores und F (p) dieVerteilung der Non-Match-Scores, dann ist die Nullhypothese

H0(Klassifikationssystem versagt) : ∀si ∈ S, si ∈ F (p). (3.2)

Kann H0 abgelehnt werden, dann handelt es sich um einen Ausreißer und dieKlassifikation war korrekt. Grundlegend für den Hypothesentest ist offensicht-lich die Verteilung F . Ein Ansatz wäre hier die gesamte Verteilung zu benutzen,um zu überprüfen, ob der beste Score ein Ausreißer ist oder nicht. Scheirer etal. argumentieren jedoch, dass eine komplette Modellierung von F Probleme amRand der Verteilung besitzen, der im englischen als Tail bezeichnet wird. Die Me-ta Recognition modelliert daher den Tail der Non-Match-Verteilung. Hierin liegt

35

Page 44: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

3 Meta Recognition

der Vorteil gegenüber anderen Post-Recognition-Verfahren, da Scheirer et al. be-weisen, dass es sich bei der Meta Recognition um ein statistisches Extremwert-problem handelt, wenn nur der Rand der Verteilung betrachtet wird [SRMB11].Jede Verteilung eines statistischen Extremwertproblems gehört nach dem Fisher-Tippet-Theorem zu einer von nur drei möglichen Verteilungsfamilien: Gumbel,Frechet oder Weibull [Gum54, SRMB11]. Wird angenommen, dass die Scores be-schränkt sind, so reduziert sich eine Extremwertverteilung zu einer Weibull Ver-teilung.Zusammenfassend stellen Scheirer et. al. fest: Egal welche Verteilung den Non-Match-Scores zu Grunde liegt, mit genug Klassen und Scores strebt die Vertei-lung der besten n Scores immer gegen eine Extremwertverteilung und immergegen die Weibull-Verteilung, wenn die Scores beschränkt sind1. Daher müssenfür unterschiedliche Klassifikationsprobleme keine individuellen Verteilungsfa-milien bestimmt werden, die den Rand modellieren, sondern es kann immer dieWeibull-Verteilung benutzt werden. Das Problem des Schätzens des Tails der Ver-teilung reduziert sich damit zum Schätzen einer Weibull-Verteilung. Der Hypo-thesentest wird darüber ausgewertet, ob der beste Score ein Ausreißer in Bezugzu der geschätzten Weibull-Verteilung ist.Zur Ausreißererkennung wählen Scheirer et al. den Weg über den CDF-Wertder geschätzten Weibull-Verteilung im Punkt des besten Scores. Ist dieser größerals ein bestimmter Schwellwert, so wird dies als Ausreißer interpretiert und dieNullhypothese abgelehnt. Ist der Wert kleiner als der vorgegebene Schwellwert,kann die Hypothese zwar nicht bestätigt werden, doch wird sicherheitshalberangenommen, dass der beste Score in diesem Fall auch aus F stammt. In diesemFall wird das Klassifikationsergebnis als falsch eingestuft.Scheirer et. al. unterscheiden in ihrer Arbeit zwischen Rank-1 und Rank-K Erken-nung, wobei Rank-1 Erkennung bedeutet, dass überprüft werden soll, ob der bes-te Score der Match-Score ist. Rank-K Erkennung untersucht, ob der Match-Scorein den K besten Scores enthalten ist. Sie begründen das Konzept der Rank-K MetaRecognition damit, dass in manchen biometrischen Systemen nur gefordert wird,dass der Match-Score unter den besten Scores ist. Im Fall der Klassifikation ist of-fensichtlich nur die Rank-1 Erkennung plausibel. Sie ist daher für diese Arbeit

1Originalzitat: ”Rephrasing, no matter what model best fits each non-match distribution [...], withenough samples and enough classes the sampling of the top-n scores always results in a EVT distri-bution, and is Weibull if the data are bounded.”[SRMB11]

36

Page 45: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

3.2 Konzeptioneller Aufbau

Algorithmus 3.1 Meta Recognition nach Scheirer et. al. [SRMB11]Eingabe: Eine Scoremenge S, ein Schwellwert δ ∈ [0; 1]

1: Sortiere S und entnehme die n besten Scores s1, . . . , sn ∈ S2: Schätze eine Extremwert- oder Weibull-VerteilungW aus s2, . . . , sn, wobei der

angenommene Ausreißer nicht mit in die Schätzung einfließt3: if Inverse CDF vonW in s1 > δ then4: return korrekt . s1 ist ein Ausreißer, Nullhypothese H0 wird abgelehnt5: else6: return inkorrekt . kann H0 nicht ablehnen, entscheide sicherheitshalber

auf inkorrekt

die einzig relevante. Im folgenden impliziert der Begriff Meta Recognition daherdie Rank-1 Meta Recognition.Der Algorithmus 3.1 verdeutlicht den Ablauf der Meta Recognition als Pseudo-code. Da angenommen wird, dass der beste Score ein Ausreißer ist, wird zurSchätzung der Weibull-Verteilung W die Score-Menge S ohne diesen benutzt.Anschließend wird der beste Score in die Inverse der kumulativen Verteilungs-funktion eingesetzt und der errechnete Wert mit einem Schwellwert verglichen.Der Schwellwert muss auf Grund der Definition der kumulativen Verteilungs-funktion aus dem Intervall von 0 bis 1 stammen. Ist der Schwellwert 0 wird dasErgebnis der Klassifikation immer als korrekt eingestuft, ist er 1 immer als falsch.Die beiden Parameter der Meta Recognition sind die Tail-Größe, also die An-zahl an Scores, die zum Schätzen der Weibull-Verteilung benutzt werden, undder Schwellwert δ (siehe Algorithmus 3.1). Die Tail-Größe wird von Scheirer et al.immer empirisch bestimmt. Zudem geben sie keine Vorschrift an, nach der dieserParameter zu wählen ist. Es wird lediglich ausgesagt, dass die beste Tail-Größeeine Funktion der Gesamtanzahl der verwendeten Klassen ist. Um welche Funk-tion es sich handelt, verraten Scheirer et al. leider nicht. Die Auswertung eines ge-eigneten Schwellwerts δ wird hingegen äußerst detailliert betrieben. Der genaueAblauf zur Schwellwertbestimmung wird im Abschnitt 3.5 genau beschrieben.In diesem Abschnitt wurde genau beschrieben, wie die Meta Recognition nachScheirer et al. konzeptionell abläuft. Was bisher noch fehlt ist die genaue Be-schreibung des Kernpunktes der Meta Recognition, nämlich der Schätzung derWeibull-Verteilung. Daher wird im folgenden Abschnitt diese Wahrscheinlich-

37

Page 46: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

3 Meta Recognition

keitsfunktion genau beschrieben, ihre Eigenschaften dargestellt und erklärt, wel-che Parameter der Funktion wie geschätzt werden können.

3.3 Weibull-VerteilungIm vorherigen Abschnitt wurde der konzeptionelle Ablauf der Meta Recognitionvorgestellt. In diesem Abschnitt soll nun die Weibull-Verteilung genau beschrie-ben werden. Insbesondere wird darauf eingegangen, welche Parameter existie-ren und wie sie das Aussehen der Funktion beeinflussen. Es wird außerdem ge-zeigt, dass sich die Parameter nicht analytisch über das Maximum-Likelihood-Verfahren bestimmen lassen und welches Verfahren in dieser Arbeit gewählt wird,um die Parameter zu bestimmten.Es existieren zwei gebräuchliche Formen der Weibull-Verteilung, wobei beidesich nur im Aussehen ihrer Definition unterschieden. In dieser Arbeit wird dieForm verwendet, die auch Scheirer et al. [SRMB11] und McCool [McC12] ver-wenden. Die Dichtefunktion der Weibull-Verteilung lautet

f (x) =β

λ

( xλ

)β−1· e−(

xλ)

β

, (3.3)

wobei λ als Skalen- und β als Formparameter bezeichnet werden [SRMB11]. Bei-de Parameter müssen größer als 0 sein. Die andere Form benutzt statt λ den Kehr-wert dieses Parameters [Oda02].Die kumulative Verteilungsfunktion der Weibull-Verteilung ist

F(x) = 1− e−(xλ)

β

. (3.4)

Die Abbildung 3.4 visualisiert die Dichte- und kumulative Verteilungsfunktionder Weibull-Verteilung mit einer Auswahl von unterschiedlichen Parametern. Esist deutlich zu erkennen, wie der Skalenparameter die Höhe der Dichtefunktionbeeinflusst. Bei größeren Werten schiebt sich das Maximum der Funktion entlangder y-Achse nach unten. Der Formparameter hingegen verschiebt bei größerenWerten das Maximum der Funktion in positiver Richtung entlang der x-Achse.Für eine Maximum-Likelihood-Schätzung der Parameter muss ein Schätzer für λ

und ein Schätzer für β berechnet werden. Der Schätzer λMLE für den Skalenpara-meter lautet

λMLE =

(1n

n

∑i=1

(xi)β

) 1β

. (3.5)

38

Page 47: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

3.4 Ordnung der Score-Menge

0 2 4 60

0.2

0.4

0.6

0.8

x

Dic

hte

γ = 1, β = 1γ = 1, β = 2γ = 2, β = 1γ = 2, β = 2

(a) Schematische Darstellung der PDF

verschiedener Weibull-Verteilungen

0 2 4 60

0.5

1

x

Kum

ulat

iveD

icht

e

γ = 1, β = 1γ = 1, β = 2γ = 2, β = 1γ = 2, β = 2

(b) Schematische Darstellung der CDF

verschiedener Weibull-Verteilungen

Abbildung 3.4: Die beiden Grafiken zeigen schematisch die PDF (a) und die CDF(b) von Weibull-Verteilungen mit unterschiedlichen Parametern.

Im Gegensatz zu λMLE, lässt sich der Schätzer für den Formparameter βMLE nichtanalytisch bestimmen [McC12]. Wird die Likelihood-Gleichung für die Weibull-Verteilung nach β abgeleitet und gleich Null gesetzt, ergibt sich nach Umstellungfolgender Ausdruck:

1β+

1n

n

∑i=1

log(xi)−∑n

i=1(xi)βlog(xi)

∑ni=1(xi)β

= 0. (3.6)

Über diese Gleichung lässt sich βMLE zum Beispiel iterativ annähern. Ist βMLE

bestimmt, wird λMLE (Formel 3.5) durch einsetzen dieses Werts bestimmt.

3.4 Ordnung der Score-MengeDie Form der Weibull-Verteilung und die Definition des Schwellwertes aus Al-gorithmus 3.1 machen deutlich, dass ein Score von Scheirer et al. als Ausreißerbetrachtet wird, wenn er numerisch größer ist als die anderen Scores. Ein bes-serer Score bedeutete daher im bisherigen Sinne, dass es sich im einen größerenScore handelt. Es können jedoch Szenarien eintreten, in denen numerisch kleine-re Scores besser als numerisch größere. Wird zum Beispiel ein Nächster NachbarKlassifikator mit Distanzmetrik eingesetzt, handelt es sich beim Score um die Di-stanz der Eingabe zu der jeweiligen Klasse. Ein numerisch kleinerer Wert spiegelt

39

Page 48: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

3 Meta Recognition

Algorithmus 3.2 Erweiterung der Rank-1 Meta Recognition nach Scheirer et. al.[SRMB11] um das Low Fit VerfahrenEingabe: Eine Scoremenge S, ein Schwellwert δ ∈ [0; 1]

1: Sortiere S aufsteigend und entnehme die n besten Scores s1, . . . , sn ∈ S2: for each si ∈ {s1, . . . , sn} do3: s′i = sn − si

4: Schätze eine Extremwert- oder Weibull-VerteilungW aus s′2, . . . , s′n, wobei derangenommene Ausreißer nicht mit in die Schätzung einfließt

5: if Inverse CDF vonW in s′1 > δ then6: return korrekt7: else8: return inkorrekt

hier größere Klassenzugehörigkeit wieder (siehe Abschnitt 2.2.2. Für solche Fäl-le, in denen numerisch kleinere Scores besser sind als numerisch größere, mussdaher die Meta Recognition modifiziert werden.Der Grundgedanke, der zur Lösung dieses Problems in dieser Arbeit verwendetwurde, ist, dass eine einfache Spiegelung der Scores um ihren Median ihre Re-lationen zueinander beibehält, ihre Reihenfolge jedoch von ”kleiner ist besser”zu ”größer ist besser” umgekehrt wird. Der Algorithmus 3.2 verdeutlicht diesenAblauf. Sei S = {s1, . . . , sn} eine Menge von aufsteigend sortierten Scores und ndie Tail-Größe, für die eine Weibull-Verteilung geschätzt werden soll. Zur Schät-zung der Verteilung wird die Menge S′ = {s′1, . . . , s′n} aus S nach der Vorschrift

s′i = sn − si, 0 < i ≤ n (3.7)

erzeugt. Die Weibull-Verteilung wird anschließend mit S′ geschätzt. Die Ausrei-ßererkennung erfolgt wie im Abschnitt 3.2, nur wird statt des Ausgangswerts dertransformierte Wert s′1 benutzt.Das in diesem Abschnitt beschriebene Verfahren wird in den folgenden Kapitelnals Low Fit bezeichnet werden.

40

Page 49: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

3.5 Fehlerkurven

3.5 Fehlerkurven

In den vorangehenden Abschnitten wurde die Meta Recognition eingeführt, ihrAblauf erläutert und die Weibull-Verteilung als ihr Kernpunkt vorgestellt. ZurAuswertung der Ergebnisse, die über eine Meta Recognition erzeugt werden,werden bestimmte Fehlerkurven genutzt. Diese werden in diesem Abschnitt vor-gestellt.Bei der Meta Recognition handelt es sich um eine Möglichkeit die Ergebnisse vonMustererkennungsverfahren zu überprüfen. Werden die Ergebnisse dieses Sys-tems und der Meta Recognition kombiniert, tritt einer von vier möglichen Fällenein:

1. True AcceptDas Mustererkennungssystem erzeugt ein korrektes Ergebnis und die MetaRecognition bestätigt dies.

2. True RejectDas Mustererkennungssystem erzeugt ein falsches Ergebnis und die MetaRecognition erkennt dies.

3. False AcceptDas Mustererkennungssystem erkennt ein falsches Ergebnis und die MetaRecognition erkennt dies nicht.

4. False RejectDas Mustererkennungssystem erzeugt ein korrektes Ergebnis, die Meta Re-cognition weist es aber als falsch zurück.

Wird die Meta Recognition für ein bestimmtes Mustererkennungssystem zu ver-schiedenen Eingaben ausgewertet, entstehen vier Mengen zu den oben beschrie-benen vier Ereignismöglichkeiten. Ähnlich wie beim Information Retrieval, las-sen sich verschiedene Maße zu diesen Mengen angeben, wobei Scheirer et. al.zwei spezifische Maße definieren [SRMB11, SRPB12]: Die Meta Recognition FalseAccept Rate (MRFAR) gibt die Rate an, mit der die Meta Recognition fälschlicher-weise eine korrektes Ergebnis des Musterklassifikationssystems vorher sagt wäh-

41

Page 50: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

3 Meta Recognition

10−4 10−3 10−2 10−1 100

10−2

10−1

100

EER

EER

MRMDR

MR

FAR

Abbildung 3.5: Die Grafik zeigt den exemplarischer Verlauf zweier MRET-Kurven. Wird die EER als Gütemaß verwendet, ist die rote Kurvebesser als die blaue, da ihre EER näher am Ursprung liegt, als dieder blauen.

rend die Meta Recognition Miss Detection Rate (MRMDR) die Rate angibt, mit derein korrektes Ergebnis zurückgewiesen wird. Sie berechnen sich aus

MRFAR =|False Accept|

|False Accept|+ |True Reject| (3.8)

MRMDR =|False Reject|

|False Reject|+ |True Accept| . (3.9)

In der angegebenen Formel stehen die Ausdrücke in den senken Strichen jeweilsfür die Mengen an True Accepts, True Rejects, False Accepts und False Rejects, diedie Meta Recognition zu einer Menge von Eingaben erzeugt. Die Größe der ein-zelnen Mengen wird durch den Schwellwert bestimmt, ab welchem das Ergebnisdes Mustererkennungssystems als falsch eingestuft wird (siehe Algorithmus 3.1).Wird der Schwellwert variiert und die MRFAR und MRMDR zu jedem Schwell-wert gegeneinander abgetragen entsteht eine Meta Recognition Error Tradeoff Kur-ve (MRET). Die Abbildung 3.5 visualisiert den Verlauf zweier MRET-Kurven. ImGegensatz zu Precision-Recall-Kurven im Information Retrieval, handelt es sich

42

Page 51: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

3.5 Fehlerkurven

bei diesen Kurven um die Darstellung zweier Fehlermaße. Daher ist es wün-schenswert die Fläche unter der Kurve so gering wie möglich zu halten. Scheireret. al. drücken diesen Sachverhalt damit aus, dass sie die einzelnen Punkte auf ei-ner MRET-Kurve besser bewerten als andere, wenn sie näher am Ursprung liegen[SRMB11]. Es ist zu beachten, dass MRET-Kurven nicht stetig sondern diskretsind. In der Abbildung 3.5 wird diesem Sachverhalt durch die Darstellung mitHilfe von einzelnen Kreuzen Ausdruck verliehen. Die Linien der MRET-Kurvensind lediglich Interpolationen zur besseren Visualisierung.Wie auch die Precision-Recall-Kurve, kann die MRET-Kurve dazu benutzt wer-den die Parameter der Meta Recognition feinzujustieren [SRMB11]. Mit Parame-ter ist im Fall der Meta Recognition allein der Schwellwert gemeint.Ähnlich wie beim Konzept der Average Precision, ist es auch hier wünschens-wert die wesentlichen Informationen, die in einer MRET-Kurve stecken, nume-risch zusammenzufassen. Scheirer et. al. definieren zu diesem Zweck die EER alsden Punkt, an dem MRMDR und MRFAR gleich sind [SRMB11].

43

Page 52: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig
Page 53: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

4KERNDICHTESCHÄTZUNG FÜR DIE

META RECOGNITION

In Kapitel 3 wurde die Meta Recognition vorgestellt und beschrieben und derEinsatz der Weibull-Verteilung motiviert. In diesem Abschnitt wird ein neuar-tiges Verfahren auf Basis der Meta Recognition vorgstellt. Insgesamt beinhaltetdieses Kapitel alle neuen Beiträge dieser Arbeit.Zunächst wird eine neue Form von Meta Recognition vorgestellt und motiviert,warum und wie weit die Meta Recognition abgeändert werden sollte (Abschnitt4.1). Anschließend wird der veränderte Ablauf der Meta Recognition beschrieben(Abschnitt 4.2).In den folgenden Experimenten wird die Meta Recognition auch auf ein Problemaus dem Information Retrieval angewendet. Da bisher die Meta Recognition nurauf Problemen aus dem Bereich der Rank-1 Meta Recognition beschrieben wur-de, wird im Abschnitt 4.3 beschrieben, wie die Meta Recognition auch auf dasInformation Retrieval angewendet werden kann.Abschließend wird ein im Kontext der Meta Recognition neues Gütemaß vorge-stellt, dass eine Alternative zur EER darstellt.

45

Page 54: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

4 Kerndichteschätzung für die Meta Recognition

Abbildung 4.1: Die Grafik zeigt die intuitive Motivation für den Einsatz einerWeibull-Verteilung zur Modellierung des Tails der Non-Match-Verteilung (entnommen aus [SRMB11]).

4.1 MotivationIn ihrer Arbeit motivieren Scheirer et al. den Einsatz der Weibull-Verteilung fürdie Meta Recognition intuitiv damit, dass sie den Endteil der Non-Match-Vertei-lung modelliert. Die Grafik 4.1 verdeutlicht diesen Ansatz. Die unimodale Weibull-Verteilung wird hier für den unimodalen Verlauf des am weitesten rechts liegen-den Stücks der Non-Match-Verteilung benutzt. Je mehr Scores zur Schätzung desTails verwendet werden, desto breiter wird der Bereich der Non-Match-Verteilung,der geschätzt wird. Mit wachsender Größe wächst auch die Möglichkeit, dass einweiterer Modus hinzukommt. In der Abbildung 4.1 ist zu erkennen, dass das letz-te Viertel der Verteilung zwei Modi besitzt. Diese Auswahl von Scores mit meh-reren Moden wird unter Umständen von einer multimodalen Verteilung bessermodelliert als von einer unimodalen. Daher ist für Scheirer et al. die Wahl ei-ner geeigneten Tail-Größe von größter Bedeutung [SRMB11]. Wie diese Auswahlauszusehen hat wird jedoch nur sehr wage beschrieben. Die einzige Aussage ist,dass die Tail-Größe eine Funktion der Galleriegröße sein muss, also der Größeder Menge aller zur Verfügung stehenden Scores, und mit wachsender Gallerie-größe auch die Tail-Größe wachsen muss.Es ist anzunehmen, dass Scheirer et al. in ihrer Arbeit bei der Auswahl der Tail-Größe diejenige benutzt haben, die die besten Ergebnisse erzeugt. Die Annah-me, dass alle Tails der Non-Match-Verteilungen eines Experiments zu einer fes-ten Tail-Größe unimodal sind, ist zweifelhaft. Zudem fußt der Beweis zur MetaRecogniton auf der Annahme, dass genügend Scores vorliegen. Es wird jedochnicht weiter darauf eingegangen, was in diesem Kontext genügend Scores sind.

46

Page 55: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

4.2 Ablauf

Im Umkehrschluss wird auch nicht darauf eingegangen, was passiert, wenn nichtgenügend Scores vorliegen. Es liegt die Vermutung nah, dass insbesondere in Fäl-len, in denen nicht genügend Scores vorhanden sind, die Weibull-Verteilung nichtzwangsläufig die zur Modellierung des Tails beste Verteilung ist.In dieser Arbeit wird daher ein Verfahren beschrieben, was diese Problemberei-che der Meta Recognition verbessert. Dabei gilt diese Verbesserung der Wahl derVerteilung zur Modellierung des Tails. Als besonders geeignet scheint eine Vertei-lung, die sowohl multimodaler als auch unimodaler Gestalt sein kann, um somitmit verschiedensten Größen von Tails umgehen zu können..Eine mögliche Art zur Schätzung einer solchen Wahrscheinlichkeitsfunktion istdie Kerndichteschätzung (siehe Abschnitt 2.1.3). In dieser Arbeit wird gezeigt,wie sie anstatt der Weibull-Verteilung bei der Meta Recognition verwendet wer-den kann. Im folgenden Abschnitt wird der genaue technische Ablauf beschrie-ben, wie diese Veränderung realisiert wird.

4.2 AblaufNachdem im vorherigen Abschnitt motiviert wurde, weswegen eine Kerndichte-schätzung als Erweiterung der Meta Recognition eingesetzt werden sollte, wirdin diesem Abschnitt auf den genauen Ablauf eingegangen.Der Algorithmus 3.1 zeigt den Ablauf Meta Recognition nach Scheirer et al. alsPseudocode. Der Kernpunkt ist hier die Schätzung einer Weibull-Verteilung unddas Auswerten der inversen kumulativen Verteilungsfunktion. In dieser Arbeitwird statt der Weibull-Verteilung eine Kerndichteschätzung eingesetzt, um dieunbekannte Dichtefunktion des Rands der Non-Match-Verteilung zu schätzen.Der Algorithmus 4.1 verdeutlicht den Ablauf in Pseudcode. Es ist zu erkennen,dass der Verlauf der Meta Recognition im wesentlichen gleich bleibt, die Weibull-Verteilung jedoch ersetzt wird (siehe Algorithmus 3.1). Die Wahl der Tail-Größe nist aber nicht mehr so kritisch, wie bei der Meta Recognition, da auch multimoda-le Verläufe modelliert werden können. Prinzipiell kann sogar die gesamte Non-Match-Verteilung durch die Kerndichteschätzung modelliert werden. Im weite-ren Verlauf dieser Arbeit wird dieses Verfahren als Meta Recognition mit Kerndich-teschätzung bezeichnet werden. Die statistische Meta Recognition nach Scheirer etal. wird standard Meta Recognition oder einfach nur Meta Recognition genannt.Der einzige Parameter der Kerndichteschätzung ist die Bandbreite (siehe Ab-

47

Page 56: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

4 Kerndichteschätzung für die Meta Recognition

Algorithmus 4.1 Abwandlung der Meta Recognition mit Hilfe einer Kerndichte-schätzungEingabe: Eine Scoremenge S, ein Schwellwert δ ∈ [0, 1]

1: Sortiere S und entnehme die n besten Scores s1, . . . , sn ∈ S2: Ermittle über eine KDE ein Modell P aus s2, . . . , sn, wobei der angenommene

Ausreißer nicht mit in die Schätzung einfließt3: if Inverse CDF von P in s1 > δ then4: return korrekt5: else6: return inkorrekt

schnitt 2.1.3). Eine optimale Wahl der Bandbreite ist kritisch für die Kerndichte-schätzung [RD06], da sie über die Glätte der approximierten Funktion bestimmt.Eine zu kleine Bandbreite führt zu einer Überanpassung an die Daten, währendeine zu große Bandbreite die Funktion zu sehr glättet. Zur Bestimmung der opti-malen Bandbreite sind die gebräuchlichsten Verfahren die Nutzung des IntegratedSquared Error bzw. des Mean Integrated Squared Error [HSS13]. Sei p(x) die gesuch-te Dichte und ph(x) die über eine Kerndichteschätzung bestimmte Approximati-on von p(x) mit Bandbreite h, dann ist

ISE( ph, p) =∫( ph(x)− p(x))2dx (4.1)

der Integrated Squared Error. Der Erwartungswert dieses Fehlers ist der MeanIntegrated Squared Error:

MISE( ph, p) = E∫( ph(x)− p(x))2dx. (4.2)

Um diesen Fehler einfacher zu untersuchen, wird eine sogenannte asymptotischeApproximation von MISE berechnet [JMS96]. Diese in der Literatur als AsymptoticalMean Integrated Squared Error (AMISE) bezeichnete Methode wird aus dem MI-SE über eine Taylor-Entwicklung erzeugt [RD06]. Der asymptotische Fehler vonph(x) zu p(x) berechnet sich aus

AMISE( ph, p) =1

nhr(k) +

14

h2µ2(k)r(p′′), (4.3)

r(g) =∫

g(x)2dx, (4.4)

µ2(g) =∫

x2g(x)dx, (4.5)

48

Page 57: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

4.3 Meta Recognition beim Information Retrieval

wobei n die Anzahl der Daten zum Schätzen von ph(x) und k die Kernel-Funktionvon ph(x) ist (siehe Abschnitt 2.1.3). Die optimale Bandbreite ergibt sich durchMinimierung des AMISE [RD06, JMS96]:

hopt =

(r(k)

µ2(k)2r(p′′)n

) 15

. (4.6)

Die Gleichung 4.6 ist nicht direkt berechenbar, da sie von der zweiten Ableitungder zu approximierenden Funktion p(x) abhängt [RD06]. In der Praxis werdenverschiedene Schätzverfahren verwendet um diese Ableitung zu bestimmen. Dastheoretisch beste Verfahren für diese Schätzung ist die solve-the-equation plug inMethode [RD06, JMS96]. Die genaue Beschreibung dieser Methode hat für dieseArbeit keine Relevanz, da sie für den weiteren Verlauf keine wichtigen Erkennt-nisse bietet. Der interessierte Leser wird auf die Literatur verwiesen.

4.3 Meta Recognition beim InformationRetrieval

In Abschnitt 2.2.3.1 wurde bereits erklärt, dass die sortierte Rückgabeliste einesInformation Retrieval Systems aus einer Anzahl von relevanten und nicht rele-vanten Elementen in Bezug zum Query besteht. Nach der Erzeugung einer sol-chen Liste ist es möglich in einem zur Post Recognition äquivalenten Schritt dieseListe zu verbessern, indem irrelevante Dokumente gestrichen werden. Um die-sen Vorgang zu automatisieren, kann die Meta Recognition verwendet werden.Es handelt sich in diesem Fall jedoch nicht mehr um die von Scheirer et al. be-schriebene Rank-1 Meta Recognition (siehe Abschnitt 3.2). Bisher wurde die MetaRecognition nur in Kombination mit Musterklassifikationssystemen verwendet[SRMB11, SRPB12]. Der Einsatz der Meta Recognition beim Information Retrie-val stellt einen neuartigen Beitrag dar. In diesem Abschnitt soll die Methodikhierfür ausführlich vorgestellt werden.Bei der Rank-1 Meta Recognition wird untersucht, ob der beste Score ein Aus-reißer in Bezug zu den restlichen Scores ist. Beim Information Retrieval liegt oft-mals der Fall vor, dass die Rückgabeliste nicht nur ein einzelnes relevantes Ele-ment enthält, sondern eine Reihe von Elementen relevant sein kann. Die Bewer-tung kann daher nicht mehr an Hand einer MRET-Kurve erfolgen, da nicht binär

49

Page 58: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

4 Kerndichteschätzung für die Meta Recognition

festgestellt werden kann, ob das System versagt oder nicht. Oft wird zur Bewer-tung der Güte eines Information Retrieval Systems mit sortierten Rückgabelistendie Mean Average Precision und der Mean Recall verwendet (siehe Abschnitt2.2.3.1). Eine Verbesserung der Ergebnisse mit Hilfe der Meta Recognition ver-folgt den Ansatz irrelevante Elemente aus der Liste zu entfernen. Ähnlich wiebei der Meta Recognition bei der Musterklassifikation ist hier die Annahme, dassdie relevanten Elemente einer Liste am Anfang stehen und die irrelevanten amEnde. Die Meta Recognition bestimmt daher einen Punkt, an dem die Rückga-beliste abgeschnitten werden soll. Ziel ist dabei die Mean Average Precision zusteigern. Der Mean Recall kann durch ein Abschneiden der Rückgabeliste nichtverbessert werden, da keine neuen relevanten Elemente hinzugefügt werden.Allein die Mean Average Precision zu optimieren ist jedoch nicht zielführend.Unter der oben beschrieben Annahme, dass die relevanten Elemente einer Rück-gabeliste am Anfang stehen, ist es äußerst wahrscheinlich, dass das erste Listen-element relevant ist. Wenn unter den ersten Elementen nur ein irrelevantes ist,würde ein Verfahren, dass nur die Mean Average Precision optimiert alle Elemen-te nach dem ersten irrelevanten abschneiden, solange dies nicht das erste Elementder Liste ist. Der Mean Recall würde in solchen Fällen sehr klein werden. Daherist die Mean Average Precision immer unter Berücksichtigung des Mean Recallzu optimieren.Bei unsortierten Rückgabelisten erfolgt die Zusammenführung von Precision undRecall über den F-Score (siehe Abschnitt 2.2.3.1). Analog dazu wird in dieser Ar-beit der FMAP-Wert definiert als das harmonische Mittel aus Mean Average Pre-cision und Mean Recall:

FMPA(MAP, MR) =2 ·MAP ·MRMAP + MR

. (4.7)

Dieses Maß wird zur Optimierung der Mean Average Precision verwendet. DieMotivation ist, dass eine Verbesserung der Mean Average Precision nicht mehr zustark zu Lasten des Mean Recall fallen darf. Die Verbesserung muss den Nachteileines geringeren Mean Recalls überwiegen.

4.4 Fläche unter der MRET-KurveIn Abschnitt 3.5 wurde bereits mit der Equal Error Rate ein Gütemaß zur Bewer-tung von MRET-Kurven eingeführt. Vorexperimente haben gezeigt, dass dieser

50

Page 59: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

4.4 Fläche unter der MRET-Kurve

Punkt nicht immer eindeutig zu bestimmen ist. Dies liegt daran, dass MRFARund MRMDR auf den Größen der True-Accept-, True-Reject-, False-Accept- undFalse-Reject-Mengen beruhen. Sind diese Mengen klein, kann teilweise eine ge-naue EER nicht bestimmt werden. Zudem kann die EER nie beliebig genau be-stimmt werden, da die vier oben erwähnten Mengen immer endlich sind.Aus diesen Gründen wird in dieser Arbeit ein im Kontext der Meta Recognitionneues Gütemaß zum Vergeich zweier MRET-Kurven verwendet. Analog zum In-formation Retrieval wird dieses Maß definiert als die Fläche unter der jeweiligenKurve. Da es sich aber, im Gegensatz zu Precision-Recall-Kurven, um Fehlerkur-ven handelt, bedeutet ein kleinerer Flächeninhalt hier ein besseres Ergebnis. Imweiteren Verlauf der Arbeit wird dieses Verfahren als Fläche unter der Kurve (engl.area under curve) (AUC) bezeichnet.

51

Page 60: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig
Page 61: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

5EXPERIMENTE

Im folgenden Kapitel werden die Experimente beschrieben, mit deren Hilfe dieMeta Recognition und die Meta Recognition mit Kerndichteschätzung (siehe Ab-schnitt 4) untersucht werden.Um die Ergebnisse der beiden Verfahren in ein Verhältnis setzen zu können, wirdzunächst das Verfahren des festen Schwellwerts beschrieben (Abschnitt 5.1), mitdem auch Scheirer et al. die Meta Recognition vergleichen [SRMB11].Das erste Experiment ist anschließend die Rekonstruktion des zentralen Experi-ments von Scheirer et al. [SRMB11] (Abschnitt 5.2). Ziel ist hierbei die Korrektheitder in dieser Arbeit implementierten Meta Recognition zu zeigen.Um zu untersuchen, wie gut sich die Meta Recognition für Probleme mit einerkleinen Klassenanzahl eignet, wird im zweiten Experiment ein Datensatz mitkleiner Klassenanzahl gewählt und die beschriebenen Verfahren hierauf ausge-wertet (Abschnitt 5.3).Im letzten Experiment wird die Meta Recognition auf das Word Spotting ange-wendet (Abschnitt 5.4), um beispielhaft zu prüfen, wie praktikabel sie in anderenBereichen der Mustererkennung ist.Den letzten Abschnitt bildet eine Diskussion über die gewonnenen Ergebnisse(Abschnitt 5.5).

53

Page 62: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

5 Experimente

Die Abschnitte 5.2 - 5.4 beziehen sich auf jeweils ein Experiment mit einem spe-zifischen Datensatz. Sie sind so aufgeteilt, dass zunächst der Datensatz beschrie-ben wird, der dem jeweiligen Experiment zu Grunde liegt. Anschließend wird ineinem eigenen Abschnitt jeweils genau erläutert, wie das entsprechende Experi-ment aufgebaut sind. Es folgen die Ergebnisse und eine abschließende Evaluie-rung. Alle für die Experimente nötigen Implementierungen geschahen in Micro-soft Visual Studio 2012 in C++ bzw. in Matlab 2012a in der Matlab-Skriptsprache.Als externe Bibliotheken wurden boost1 und der Fast optimal bandwidth selector2

benutzt. Die boost-Bibliothek wurde verwendet, um die erf-Funktion in der ku-mulativen Verteilungsfunktion der Kerndichteschätzung zu berechnen (siehe Ab-schnitt 2.1.3), während der Fast optimal bandwidth selector zur Bestimmung ei-ner optimalen Bandbreite im Sinne des AMISE (siehe Abschnitt 4.2) benutzt wur-de.

5.1 Referenz Post-Recognition-Verfahren

In ihrer Arbeit zeigen Scheirer et al., dass die Meta Recognition signifikant bes-sere Ergebnisse liefert, als das von ihnen als ”standard Schwellwerteverfahren”bezeichnete Vorgehen [SRMB11]. Dieses Verfahren dient auch in dieser Arbeit alsReferenz. Es bezeichnet ein Post-Recognition-Verfahren, was ohne Schätzung vonDichtefunktionen oder ausnutzen von Vorwissen auskommt. Es wird vielmehreine feste Grenze festgelegt, ab der ein Ergebnis als korrekt eingestuft wird. Bei-spielsweise wird das Ergebnis eines Nächster Nachbar Klassifikators akzeptiert,wenn die Distanz zum nächsten Nachbarn unter einem gewissen Schwellwertliegt.Um diese feste Grenze in den folgenden Experimenten einfacher zu variieren,werden zunächst alle Daten skaliert. Für jeden Datensatz werden der höchsteund niedrigste Score bestimmt. Anschließend werden alle Scores über diese bei-den Werte auf das Intervall [0; 1] skaliert. Dies erlaubt, dass die Schwellwerte ausgenau diesem Intervall gewählt werden können.In allen Experimenten wird dieses Schwellwertfahren als Referenz benutzt, um

1http://www.boost.org/, aufgerufen am 27.04.20142http://www.umiacs.umd.edu/labs/cvl/pirl/vikas/Software/optimal_bw/optimal_bw_

code.htm, aufgerufen am 27.04.2014

54

Page 63: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

5.2 Reproduktion der Ergebnisse des BSSR1

die Ergebnisse der Meta Recognition und der Meta Recognition mit Kerndichte-schätzung einzuordnen.

5.2 Reproduktion der Ergebnisse des BSSR1Das zentrale Experiment aus der Arbeit von Scheirer et al. benutzt die Daten-bank Biometric Score Set - Release 1 (BSSR1) als Grundlage [SRMB11]. Sie zeigenan Hand hieraus ausgewählter Datensätze Ergebnisse für die Meta Recognition.Diese werden jedoch nicht mit anderen Post-Recognition-Methoden verglichen.Ziel ist zu zeigen, dass die Weibull-Verteilung von allen drei Extremwertfunktio-nen (siehe Abschnitt 3.2) am besten geeignet ist.Das Experiment in diesem Kapitel baut den Ablauf aus [SRMB11] nach. Ziel isthierbei zunächst die Ergebnisse aus [SRMB11] zu rekonstruieren. Das zweite Zielist der Vergleich der Meta Recognition und der Meta Recognition mit Kerndich-teschätzung. Zusätzlich zu diesen beiden Verfahren wird außerdem das Schwell-wertverfahren (siehe Abschnitt 5.1) auf die Daten angewendet. Ziel ist hierbeieine Referenz zu erzeugen, zu der die anderen Ergebnisse in ein Verhältnis ge-setzt werden können, um so experimentell die Eignung der Meta Recognition zubelegen.Im folgenden Abschnitt wird zunächst der BSSR1-Datensatz genauer beschrie-ben (Abschnitt 5.2.1). Anschließend wird der genaue Versuchsaufbau detaillierterläutert (Abschnitt 5.2.2). Es folgen die Ergebnisse des Experiments (Abschnitt5.2.3) und eine abschließende Evaluierung (Abschnitt 5.2.4).

5.2.1 BSSR1-Datensatz

Der BSSR1-Datensatz3 ist eine Sammlung von Datenbanken aus dem Bereich derBiometrik [WK06]. Insgesamt beinhaltet er drei Datenbanken mit unterschiedli-chen ähnlichkeits Scores von drei verschiedenen Biometriksystemen. Die Syste-me werden nicht genauer Beschrieben, es wird lediglich erwähnt, dass die Scoresaus zwei Gesichtserkennungssystemen C und G sowie einem Fingerabdrucker-kennungssystem V entstammen.Die Datenbanken unterscheiden sich in Größe und der Einbeziehung der Erken-

3http://www.nist.gov/itl/iad/ig/biometricscores.cfm, 26.11.2013

55

Page 64: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

5 Experimente

nungssysteme. So besteht fing x face aus Auswertungen der beiden Gesichtserken-nungssysteme und jeweils einer für linken und rechten Zeigefinger des Fingerab-druckerkennungssystems für 517 Testpersonen. Die zweite Datensammlung facex face besteht lediglich aus den Scores der beiden Gesichtserkennungssysteme für3000 Testpersonen. Die dritte Datenbank fing x fing umfasst vier Datensätze von6000 Testpersonen, jeweils zwei von Fingern der linken und zwei von Fingernder rechten Hand.Bei dem BSSR1 handelt es sich um die Ergebnisse von verschiedenen Musterklas-sifikationsverfahren. Daher sind die Daten so zusammengestellt, dass sie direktals Post-Recognition-Schritt untersucht werden können, ohne vorher noch einezusätzliche Klassifikation zu benötigen. Insbesondere können Probleme der Fu-sion verschiedener Ergebnisse von biometrischen Musterklassifikationsverfahrenuntersucht werden.In zahlreichen Arbeiten zu Post-Recognition-Verfahren, insbesondere solche ausdem Bereich der Biometrik, diente der BSSR1 bereits als Grundlage für Experi-mente, beispielsweise in [SRMB11, CTG11, CSN10].

5.2.2 Aufbau des Experiments

Ziel dieses Experiments ist es die Ergebnisse des zentralen Experiments von Schei-rer et al. [SRMB11] zu reproduzieren, um die Korrektheit der in dieser Arbeitimplementierten Meta Recognition zu zeigen. Da in der erwähnten Arbeit keingenauerer Versuchsaufbau beschrieben wird, sondern nur Ergebnisse präsentiertwerden, wird das Experiment zunächst hier definiert. Darüber hinaus wird dieMeta Recognition mit Kerndichteschätzung auf den entsprechenden Datensätzenausgewertet, um zu überprüfen, welches Verfahren bessere Ergebnisse erzielt.Als Referenz zu beiden Verfahren wird außerdem das Schwellwertverfahren aufdem entsprechenden Datensatz ausgewertet.Wie auch bei Scheirer et al., wird in dieser Arbeit die Datenbank fing x face ausdem BSSR1-Datensatz verwendet. Diese besteht aus 517 Auswertungen von denGesichtserkennungssystemen C und G und jeweils einer Auswertung des Fin-gerabdruckerkennungssystems V für den linken und rechten Zeigefinger (sie-he Abschnitt 5.2.1). Die einzelne Datensätze werden im folgenden als Face C,Face G, Left Index V und Right Index V bezeichnet. Jeder Datensatz enthält 517Testauswertungen mit 517 Scores, wobei jeder Score zu einer Klasse gehört, die

56

Page 65: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

5.2 Reproduktion der Ergebnisse des BSSR1

den Klassifikatoren C,G und V bekannt ist. Der Klassifikator bestimmt die Klas-se einer zu klassifizierenden Eingabe an Hand des numerisch größten aller 517Scores. Die Tail-Größe zum Schätzen der Verteilungen beträgt 75, wie im Expe-riment von Scheirer et al. [SRMB11]. Da das Ziel eine Rekonstruktion ist, wirddie Tail-Größe nicht variiert. Die 75 besten Scores werden also mit dem Schwell-wertverfahren, der Meta Recognition und der Meta Recognition mit Kerndich-teschätzung ausgewertet. Verschiedene Vorexperimente konnten zeigen, dass biszu einem Schwellwert von 0, 8 die Meta Recognition kein Ergebnis zurückweistund ab einem Wert von 0, 9999995 die Ergebnisse sich in kleineren Abständenverändern als vorher. Aus diesem Grund wird für die Schwellwerte zunächst dasIntervall [0, 8; 0, 9999995] in 100000 äquidistante Abschnitte zerlegt und danachdas Intervall (0, 9999995; 1] erneut in 100000 Abschnitte. Diese Schwellwerte wer-den zum Erzeugen der MRET-Kurven für die Meta Recognition und die Meta Re-cognition mit Kerndichteschätzung verwendet. Das Schwellwertverfahren benö-tigt andere Werte, da keine kumulativen Verteilungsfunktionen zur Auswertungbenutzt werden. Für dieses Verfahren werden 100000 äquidistante Schwellwerteaus dem Intervall [0; 1] benutzt.Für die Meta Recognition mit Kerndichteschätzung muss zusätzlich eine Band-breite bestimmt werden, die bei der Schätzung der Dichtefunktion verwendetwird (siehe Abschnitt 2.1.3). Die vier Datensätze wurden von drei unterschied-lichen Erkennungssystemen erzeugt, die unterschiedliche Score-Größen zurück-geben. Daher muss die Bandbreite für jeden Datensatz eines bestimmten Systemseigens bestimmt werden. Zur Bestimmung der optimalen Bandbreite wurde in ei-ner Reihe von Vorxeperimenten das Verfahren nach Raykar und Duraiswami be-nutzt (siehe Abschnitt 4.2). Die Ergebnisse vielen jedoch allesamt äußerst schlechtaus, weswegen diese Methode nicht weiter verfolgt wird. Im folgenden Abschnittsind zum Vergleich trotzdem die Kurven für die nach dem AMISE-Verfahren er-mittelte Bandbreite mit angegeben.Zur Bestimmung einer optimalen Bandbreite muss daher ein anderes Verfah-ren verwendet werden. Zu diesem Zweck werden aus dem Datensatz zufällig100 Beispiele ausgewählt. Anschließend wird die Fläche unter der MRET-Kurvefür diese 100 Beispiele in Abhängigkeit von der Bandbreite minimiert (siehe Ab-

57

Page 66: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

5 Experimente

DatensatzBerechnete Ergebnisse Scheirer et. al.

korrekte Kla. falsche Kla. korrekte Kla. falsche Kla.

Face C 461 56 462 55Face G 436 81 436 81Left Index V 447 70 448 69Right Index V 479 38 481 36

Tabelle 5.1: Die Tabelle zeigt die Klassifikationsergebnisse des BSSR1. Zum Ver-gleich sind die von Scheirer et al. generierten Werte mit angegeben.

schnitt 4.4). Die optimale Bandbreite wird in diesem Kontext als diejenige defi-niert, welche die Fläche unter der MRET-Kurve minimiert:

hopt = arg minh

AUC(h). (5.1)

Dieser Vorgang wird zehnmal ausgeführt, um die Ergebnisse zu kreuzvalidieren.Zusätzlich wird für alle Merkmalsvektoren eines Datensatzes die Fläche unterder MRET-Kurve in Abhängigkeit von der Bandbreite bestimmt, um so eine glo-bale beste Bandbreite zu finden. Die über die Kreuzvalidierung erzeugten Band-breiten werden anschließend mit dieser globalen Kurve verglichen.Um schließlich die Meta Recognition und Meta Recognition mit Kerndichteschät-zung gegeneinander zu vergleichen, werden beide über die vorgestellten Maßeder EER und AUC ausgewertet.

5.2.3 ErgebnisseDie Tabelle 5.1 fasst die Klassifikationsergebnisse der BSSR1-Datenbank für dievier verschiedenen Datensätze zusammen. Die Ergebnisse von Scheirer et al. sindfür einen besseren Vergleich mit aufgeführt. Bis auf Face G weichen die Werte mi-nimal voneinander ab.Die Abbildung 5.1 fasst alle MRET-Kurven zur Meta Recognition für dieses Ex-periment zusammen, um sie besser mit den Kurven aus [SRMB11] vergleichenzu können. Zusätzlich sind die Kurven aus [SRMB11] zum BSSR1 mit abgebildet.Zur besseren Lesbarkeit wurden die einzelnen Punkte zu einer Kurve verbun-den. Der Verlauf der Kurven weist verschiedene Sprünge auf. Dies wird dadurchbedingt, dass die Testdatenmenge aus lediglich 517 Elementen besteht, was im

58

Page 67: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

5.2 Reproduktion der Ergebnisse des BSSR1

10−3 10−2 10−1 10010−3

10−2

10−1

100

MRMDR

MR

FAR

Face CFace GLeft Index VRight Index V

(a)

(b)

Abbildung 5.1: Die Abbildung zeigt den Verlauf der MRET-Kurven zur standardMeta Recognition beim Experiment zum BSSR1 (a). Zum Ver-gleich sind die Kurven aus [SRMB11] als Kopie mit dargestellt(b).

59

Page 68: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

5 Experimente

10−3 10−2 10−1 100 101

10−2

10−1

Bandbreite

AU

C

Face CFace GLeft Index VRight Index V

Abbildung 5.2: Die Kurven spiegeln den Verlauf der AUC in Abhängigkeit vonder Bandbreite für die vier beschriebenen Datensätze wieder.

Verhältnis zu anderen Testdaten sehr wenig ist (siehe Abschnitt 5.3.1 oder 5.4.1).Die Veränderungen in den beiden Fehlerraten MRMDR und MRFAR ist dadurchdeutlich größer als bei größeren Datenmengen.Bei einem Schwellwert von 0 beträgt die MRMDR 0 und die MRFAR 1, währendbei einem Schwellwert von 1 die MRFAR 0 und die MRMDR 1 ist. Diese beidenPunkte fehlen in der Abbildung 5.1a, da sie auf Grund der logarithmischen Ska-lierung beider Achsen nicht darstellbar sind. In der Abbildung von Scheirer et al.sind diese beiden Punkte trotzdem vorhanden (Abbildung 5.1b). Hier liegt dieVermutung nah, dass die Werte interpoliert werden, da sie bei höheren MRMDR-Werten alle auf einer geraden liegen.Die optimale Bandbreite wurde, wie im vorherigen Abschnitt beschrieben, trai-niert und die kreuzvalidiert. Die erzeugten Bandbreiten AUC-Werte wurden ge-mittelt, um eine durchschnittliche Bandbreite bzw. einen durchschnittlichen Feh-ler zu erhalten. Zum Vergleich dieser gelernten Bandbreiten zeigt die Grafik 5.2den Verlauf der AUC aller Merkmalsvektoren in Abhängigkeit von der Bandbrei-te. Die Verläufe ähneln sich alle sehr. Bei zu kleinen und zu großen Bandbreiten

60

Page 69: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

5.2 Reproduktion der Ergebnisse des BSSR1

Datensatz CV BB Beste BB CV AUC kleinste AUC

Face C 1, 55 · 10−2 2, 22 · 10−2 3, 07 · 10−2 2, 67 · 10−2

Face G 4, 48 · 10−1 4, 62 · 10−1 2, 22 · 10−2 2, 11 · 10−2

Left Index V 2,96 1,89 2, 54 · 10−2 1, 97 · 10−2

Right Index V 3,66 4,31 1, 38 · 10−2 9, 91 · 10−3

Tabelle 5.2: Die Tabelle vergleicht die in der Kreuzvalidierung erzeugten durch-schnittlichen Bandbreiten mit den global besten Bandbreiten. Zudemsind die zugehörigen durchschnittlichen bzw. kleinsten Fehler mit an-gegeben. Aus Platzgründen ist die durchschnittliche Bandbreite ausder Kreuzvalidierung in der Tabelle mit CV BB abgekürzt. Dazu ana-log steht CV AUC für den durchschnittlichen Fehler bei der Kreuzva-lidierung.

werden schlechte Werte erzielt, während die optimalen Bandbreiten jeweils ineinem Tal mit globalem Optimum liegen, neben dem aber auch lokale Optimaexistieren. Für die Datensätze Left Index V und Right Index V kann aus einemrecht großen Intervall von Bandbreiten gewählt werden, ohne die Fläche unterder MRET-Kurve zu sehr zu beeinflussen. Für Face G und Face C sind diese Berei-che wesentlich kleiner und schon geringfügige Abweichungen von der optimalenBandbreite können zu einer wesentlichen Verschlechterung führen. Insbesonderebei Face C ist die Auswahl der Bandbreite kritisch. Die Tabelle 5.2 vergleicht die inder Kreuzvalidierung erzeugten mittleren Bandbreiten und mittleren Fehler mitden globalen besten Bandbreiten und dem zugehörigen kleinsten Fehler. Die Ab-bildung 5.3 stellt für alle Datensätze die Ergebnisse der einzelnen Verfahren ge-genüber. Für die Auswertungen der Meta Recognition mit Kerndichteschätzungwurde jeweils die global besten Bandbreiten benutzt. Da es sich bei MRMDR undMRFAR um zwei Fehlerraten handelt die gegeneinander abgetragen werden, istes besser, wenn die Kurve näher am Ursprung entlang verläuft und damit einekleinere Fläche aufweist. Es ist zu erkennen, dass die Meta Recognition mit Kern-dichteschätzung unter Verwendung des AMISE-Verfahrens zur Bestimmung deroptimalen Bandbreite in allen Teilexperimenten die schlechtesten Ergebnisse er-zielt.In den verschiedenen Experimenten zum BSSR1 konnte festgestellt werden, dassdie EER nicht genau bestimmt werden kann. Dies liegt daran, dass wegen der

61

Page 70: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

5 Experimente

10−2 10−1 100

10−1

100

MRMDR

MR

FAR

WeibullKDESchwellw.AMISE

(a) Face C

10−2 10−1 10010−2

10−1

100

MRMDR

MR

FAR

WeibullKDESchwellw.AMISE

(b) Face G

10−2 10−1 10010−2

10−1

100

MRMDR

MR

FAR

WeibullKDESchwellw.AMISE

(c) Left Index V

10−2 10−1 100

10−1

100

MRMDR

MR

FAR

WeibullKDESchwellw.AMISE

(d) Right Index V

Abbildung 5.3: Die Grafiken zeigen den Verlauf der MRET-Kurven zu den vierDatensätzen und den drei Verfahren. Abbildung a visualisierthierbei die Ergebnisse zum Datensatz Face C, Abbildung b zuFace G, Abbildung c zu Left Index V und Abbildung d zu RightIndex V. Die schwarzen Kurven repräsentieren jeweils die Metho-de mit festem Schwellwert, die roten die standard Meta Recogni-tion, die blauen die Meta Recognition mit Kerndichteschätzungunter Verwendung der optimalen Bandbreite und die grünen dieMeta Recognition mit Kerndichteschätzung unter Verwendungder Bandbreite nach dem AMISE.

62

Page 71: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

5.2 Reproduktion der Ergebnisse des BSSR1

Verfahren Face C Face G Left Index V Right Index V

Schwellwert 4, 95 · 10−2 6, 65 · 10−2 2, 75 · 10−2 1, 58 · 10−2

Weibull 1, 02 · 10−1 2, 52 · 10−2 2, 65 · 10−2 1, 47 · 10−2

KDE 2, 67 · 10−2 2, 11 · 10−2 1, 97 · 10−2 9, 91 · 10−3

Tabelle 5.3: Die Tabelle fasst AUC-Werte für den BSSR1 zusammen. Zur Über-sichtlichkeit werden die beiden Meta-Recognition-Verfahren über ih-re Wahrscheinlichkeitsverteilungen identifiziert. Weibull steht hierfür die Meta Recognition nach Scheirer et al. und KDE für die MetaRecognition mit Kerndichteschätzung, wobei die global beste Band-breite verwendet wurde.

nur 517 Testfälle die Kurven, wie weiter oben bereits erwähnt, starke Sprüngeaufweisen. Da keiner der Punkte der Kurven genau die EER trifft, wäre es dahernur möglich sie über die interpolierten Streckenabschnitte anzugeben. Solch eineEER wäre jedoch lediglich eine theoretische, da kein Schwellwert gefunden wer-den kann, mit dem sie in der Praxis erreicht wird. Dadurch ist ihre Aussagekraftals Gütemaß fraglich.Es werden daher für dieses Experiment die EER-Werte nicht bestimmt oder zurBewertung herangezogen. Die Tabelle 5.3 stellt die einzelnen AUC-Werte für dieverschiedenen Verfahren und Datensätze gegenüber. Es ist darauf hinzuweisen,dass die AUC-Werte nicht die Flächen in der logarithmischen Skalierung wider-spiegeln, sondern die Flächen unter den Kurven bei normaler Darstellung. Dielogarithmische Skalierung in den jeweiligen Abbildungen wurde hier gewählt,um die Kurven optisch einfacher miteinander vergleichen zu können.

5.2.4 Evaluierung

Erstes Ziel dieses Experiments war es die Ergebnisse von Scheirer et al. [SRMB11]zu reproduzieren, um die Korrektheit der Implementierung der Meta Recogni-tion zu zeigen. Die Tabelle 5.1 zeigt die Korrekt- und Fehlklassifikationen dereinzelnen Datensätze. Im Verhältnis zu Scheirer et al. weichen diese Werte ge-ringfügig ab. Die Grund hierfür ist, dass, außer bei Face G, in allen Datensät-zen Score-Mengen auftauchen, in denen der beste Score mehrmals vorkommt.In dieser Arbeit wird davon ausgegangen, dass das Klassifikationssystem in ei-

63

Page 72: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

5 Experimente

nem praktischen Einsatz nicht entscheiden könnte, welcher von beiden Klassendie Eingabe zugeordnet werden soll. Insbesondere da es sich um einen Datensatzaus dem sicherheitskritischen Feld der Biometrik handelt, wird angenommen,dass das Klassifikationssystem diese Anfrage zurückweisen würde. Scheirer etal. bewerten diesen Sachverhalt offensichtlich anders. So lange die korrekte Klas-se einen Top-Score besitzt, wird die Klassifikation als korrekt angesehen. In ihrerArbeit führen sie dies zwar nicht explizit auf, doch liegt dieser Schluss in Hin-blick auf die Ergebnisse nahe.Die geringen Abweichungen führen zu geringfügig anderen Verläufen der MRET-Kurven (Abbildung 5.3). Große Unterschied weisen die jeweiligen Kurven in denBereichen auf, wo entweder MRMDR oder MRFAR 1 und die jeweils andere Feh-lerrate 0 werden. Da es sich um eine logarithmische Darstellung handelt, könnendie Punkte (0|1) und (0|1) nicht dargestellt werden. Die Kurven von Scheirer etal. legen den Schluss nah, dass sie sich dazu entschließen diese Punkte anzunä-hern. In der Abbildung 5.1b sind lange Abschnitte zwischen den entsprechendenPunkten zu erkennen, die auf eine Interpolation der Wert hindeuten. Unter die-sen Gesichtspunkten können auf Basis der Kurven und unter Berücksichtigungder geringfügigen Abweichungen die Ergebnisse von Scheirer et al. bestätigt wer-den.Zweites Ziel dieses Experiments war zu untersuchen, welches der in der Arbeitvorgestellten Verfahren auf diesem Datensatz besser abschneidet. Die Abbildung5.3 visualisiert zu diesem Zweck die MRET-Kurven für jedes Verfahren und je-den Datensatz in logarithmischer Form. Der Verlauf lässt bereits intuitiv erahnen,dass die Meta Recognition bessere Ergebnisse liefert als das Schwellwertverfah-ren. Außerdem ist auf diesem Datensatz die Meta Recognition mit Kerndichte-schätzung besser als beide anderen Verfahren.Diese visuellen Erkenntnisse lassen sich an Hand der AUC-Werte belegen. Wiedie Tabelle 5.3 zeigt, erzielt die Meta Recognition mit Kerndichteschätzung fürjeden Datensatz die besten Werte von allen Verfahren, wenn die Bandbreite kor-rekt gewählt wird. Eine ungünstig gewählte Bandbreite hat einen hohen Einflussauf die Fläche unter der MRET-Kurve und kann diese größer werden lassen, alsbei dem sonst immer am schlechtesten abschneidenden Schwellwertverfahren.Zu beachten ist jedoch, dass die AUC-Werte zum Face-C-Datensatz für das stan-dard Meta-Recognition-Verfahren nicht besonders aussagekräftig sind. Die star-ke Interpolation im letzten Abschnitt der Kurve verzerrt diese Ergebnisse. Auf

64

Page 73: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

5.3 Meta Recognition mit kleiner Klassenanzahl

den anderen Datensätzen kann der Vorteil der Meta Recognition mit Kerndichte-schätzung wesentlich besser belegt werden.

5.3 Meta Recognition mit kleinerKlassenanzahl

Nachdem im vorangehenden Abschnitt das Kernexperiment von Scheirer et al.rekonstruiert wurde, wird in diesem Abschnitt die Meta Recognition auf einemanderen Datensatz ausgewertet. Der Beweis zur Meta Recognition sagt aus, dassdie Verteilung der Non-Match-Scores bei genügend Scores und Klassen immereine Weibull-Verteilung ist (siehe Abschnitt 3.2). Interessant ist daher zu unter-suchen, was für Ergebnisse die Meta Recognition erzielt, wenn genau dieser Fallnicht gegeben ist, also nur eine kleine Anzahl von Scores und Klassen vorliegt.Ein sehr bekannter Testdatensatz, mit dem sich diese Art von Experiment durch-führen lässt, ist der MNIST-Datensatz. Im zweiten Experiment dieser Arbeit wirddieser daher untersucht.Zunächst wird der MNIST-Datensatz im folgenden Abschnitt genauer vorge-stellt (Abschnitt 5.3.1). Anschließend wird der Aufbau des Experiments darge-stellt (Abschnitt 5.3.2). Es folgt die Darstellung der Ergebnisse (Abschnitt 5.3.3)und eine abschließende Evaluierung (Abschnitt 5.2.4).

5.3.1 MNIST-Datensatz

Bei dem Modified NIST (MNIST) Datensatz4 handelt es sich um einen Samm-lung von digitalisierten Handschriftzeichen. Er ist eine modifizierte Version derNIST Special Database 19, die aus 800000 Schriftzeichen von 3600 verschiedenenSchreibern besteht. Jedes Zeichen liegt bei diesem Ausgangsdatensatz in Formeiner binären Pixel-Matrix vor.Für den MNIST-Datensatz wurden aus der NIST Special Database 19 70000 Schrift-zeichen ausgewählt, welche anschließend auf eine Größe von 28× 28 Pixeln proZeichen normalisiert wurden [LBBH98]. Um das Seitenverhältnis der einzelnenZeichen nicht zu verfälschen, wurden beim Normalisieren auch Grauwerte zuge-lassen, während der Ausgangsdatensatz nur binäre Werte beinhaltet. Die 70000

4http://yann.lecun.com/exdb/mnist/, 26.11.2013

65

Page 74: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

5 Experimente

Zeichen teilen sich in 60000 Trainings- und 10000 Testzeichen auf. Während derNIST-Datensatz auch Buchstaben umfasst, besteht die MNIST-Variante nur ausden Ziffern von 0 bis 9. Die Klassenanzahl von zehn ist im Verhältnis zum BSSR1-Datensatz um eine Größenordnung kleiner.

5.3.2 Aufbau des Experiments

Ziel des Experiments ist es zu untersuchen, wie geeignet die Meta Recognitionauf Problemen mit einer kleinen Anzahl von Klassen ist. Im Gegensatz zum ers-ten Experiment liegen beim MNIST keine Scores vor. Die Anforderung an denKlassifikator ist daher, dass er Scores erzeugt, die anschließend als Eingabe fürdie drei Post-Recognition-Verfahren benutzt werden können. Die Anforderungan die Scores ist, dass Merkmalsvektoren zu gleichen Klassen als ähnlich erkanntwerden und entsprechend hohe oder niedrige Scores bekommen, je nachdemwelche Ordnung der Score-Menge gewählt wird. In dieser Arbeit wurde zu die-sem Zweck ein Nächster Nachbar Klassifikator gewählt (siehe Abschnitt 2.2.2).Dieser eignet sich sehr gut, da über den jeweils nächsten Repräsentanten jederKlasse zu der zu klassifizierenden Eingabe einfach eine im oben beschriebenenSinne plausible Menge von Scores erzeugt werden kann. Verschiedene Arbei-ten konnten zwar zeigen, dass durch geeignete Vorverarbeitung und Wahl ei-nes komplexeren Klassifikators die Erkennungsrate auf dem MNIST-Datensatzim Verhältnis zum Nächsten Nachbar Klassifikator deutlich gesteigert werdenkonnte (beispielsweise [LBBH98, MCGS11]). Doch ist es explizit nicht das Zieldieses Experiments die Erkennungsrate während der Klassifikation zu optimie-ren, sondern dies unter Zuhilfenahme der drei Post-Recognition-Verfahren zu be-werkstelligen.Der Nächste Nachbar Klassifikator soll also mit den 60000 Trainingszeichen an-gelernt werden. In diesem Fall sind die Schriftzeichen die Muster, aus denen fürdas Training und die Klassifikation Merkmalsvektoren extrahiert werden müs-sen. Hierzu werden die verschiedenen 28× 28 Matrizen jeweils spaltenweise un-tereinander gehängt, so dass ein 784 dimensionaler Vektor entsteht. Wie obenbeschrieben, existieren nur Schriftzeichen für die Ziffern zwischen 0 und 9. Insge-samt existieren also zehn verschiedene Klassen und keine Rückweisungsklasse.Im nächsten Schritt werden die 10000 Testvektoren klassifiziert und für jede Klas-se die euklidische Distanz von der Eingabe zu ihrem jeweils besten Repräsentan-

66

Page 75: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

5.3 Meta Recognition mit kleiner Klassenanzahl

ten bestimmt. Diese Distanzen werden als Scores für die späteren Post-Recognition-Verfahren verwendet.Nachdem im vorangehenden Schritt die Scores erzeugt wurden, wird als nächs-tes jedes der drei vorgestellten Verfahren auf diesen ausgewertet. Im Gegensatzzum Experiment im letzten Abschnitt, wird in diesem Experiment die Tail-Größevariiert, um so den Einfluss auf die Verfahren zu bestimmen. Bei dem Experimentvon Scheirer et al. zum BSSR1-Datensatz wurde eine feste Tail-Größe gewählt, mitder die Weibull-Verteilung geschätzt wurde. Es werden jeweils die Tail-Größenzehn, acht, sechs und vier untersucht. Zur Vereinfachung werden die Teilexpe-rimente als TS10, TS8, TS6 und TS4 bezeichnet. Hier ist zu beachten, dass dieSchätzung der Non-Match-Verteilung den besten Score jeweils nicht berücksich-tigt. Bei einer Tail-Größe von zehn werden beispielsweise nur neun Scores zurSchätzung des Tails verwendet.Da es sich bei den Scores um euklidische Distanzen handelt, ist zu beachten,dass, anders als beim BSSR1, ein kleinerer Score besser ist als ein größerer. DieVerteilungen der unterschiedlichen Verfahren müssen daher nach dem Low-Fit-Verfahren geschätzt werden (siehe Abschnitt 3.4).Zu jeder Tail-Größe und jedem Verfahren werden die entsprechenden MRET-Kurven erzeugt. Durch die Definition des Schwellwertverfahrens ist klar, dass dieTail-Größen keinen Einfluss auf dieses Verfahren haben und die MRET-Kurvendadurch für alle Teilexperimente gleich sind. Für das Schwellwertverfahren wer-den, wie im Experimente zuvor, die Scores zuerst auf das Intervall [0; 1] norma-lisiert und anschließend 100000 äquidistante Schwellwerte ausgewählt. Für dieanderen beiden Verfahren wurde in Vorexperimenten festgestellt, dass erst ab ei-nem Schwellwert von 0, 85 MRMDR und MRFAR andere Werte annehmen unddas ab einem Schwellwert von 0, 999995 die Veränderungen in kleineren Interval-len folgen. Daher wurden aus dem Intervall [0, 85; 0, 999995] 100000 äquidistantWerte genommen und aus dem Intervall (0, 999995; 1] erneut 100000 äquidistanteWerte, die als Schwellwerte für die beiden Meta-Recognition-Verfahren dienen.Die Bandbreite wird, wie auch im vorangehenden Experiment, über eine Kreuz-validierung bestimmt. Zur Bestimmung der optimalen wird für jedes Experimentdie Testdatenmenge in eine Validierungs- und Testmenge aufgeteilt. Die Validie-rungsmenge hat eine Größe von 1000 und die Testmenge eine Größe von 9000.Anschließend wird auf Grund der Validierungsmenge eine optimale Bandbreitebestimmt, in dem die AUC in Abhängigkeit von der Bandbreite minimiert wird

67

Page 76: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

5 Experimente

Datensatz CV BB Beste BB CV AUC kleinste AUC

TS10 0, 740 0, 554 7, 88 · 10−2 4, 21 · 10−2

TS8 0, 880 0, 551 6, 57 · 10−2 4, 25 · 10−2

TS6 0, 480 0, 549 1, 14 · 10−1 4, 21 · 10−2

TS4 0, 290 0, 551 1, 33 · 10−1 4, 25 · 10−2

Tabelle 5.4: Die Tabelle vergleicht die in der Kreuzvalidierung erzeugten durch-schnittlichen Bandbreiten mit den global besten Bandbreiten für denMNIST-Datensatz. Zusätzlich sind die zugehörigen durchschnittli-chen bzw. kleinsten Fehler mit angegeben. Die durchschnittlicheBandbreite aus der Kreuzvalidierung ist in der Tabelle mit CV BBabgekürzt. CV AUC steht für den durchschnittlichen Fehler bei derKreuzvalidierung.

(siehe Abschnitt 5.2.2). Außerdem wird der Verlauf der Fläche unter der MRET-Kurve in Abhängigkeit von der Bandbreite untersucht. Das AMISE-Verfahrenwurde auf Grund der wesentlich schlechteren Ergebnisse im ersten Experimentnicht mehr berücksichtigt.Der Vergleich der MRET-Kurven zu den jeweiligen Teilexperimenten erfolgt überdie beiden Gütemaße AUC und EER (siehe Abschnitt 4.4 und 3.5).

5.3.3 Ergebnisse

Die Tabelle 5.4 fasst die Ergebnisse der Kreuzvalidierung dieses Experimente zu-sammen. Die Abbildung 5.4 stellt den Verlauf der AUC in Abhängigkeit vonder Bandbreite grafisch dar. Auffällig ist, dass zu allen untersuchten Tail-Größendie optimale Bandbreite äußerst nah beieinander liegen. Für die kleineren Tail-Größen steigt die Kurve schneller an nachdem sie ihr Maximum erreicht hat. EinUnterschätzen der Bandbreite ist in allen Untersuchungen wesentlich kritischerals ein Überschätzen, da die Kurven wesentlich schneller von links zum Opti-mum abfallen als sie danach wieder steigen.Die Abbildung 5.5 zeigt die MRET-Kurven für die drei verschiedenen Verfahrenund die vier Teilexperimente. Für die Meta Recognition mit Kerndichteschätzungwurde die beste Bandbreite verwendet, die in den Kurven aus Abbildung 5.4 er-mittelt wurde. Da die Kurven in diesem Experiment nicht mit Grafiken aus an-

68

Page 77: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

5.3 Meta Recognition mit kleiner Klassenanzahl

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 50

0.1

0.2

0.3

0.4

0.5

Bandbreite

AU

C

TS10TS8TS6TS4

Abbildung 5.4: Die Abbildung zeigt den Verlauf der Fläche unter der MRET-Kurve für die vier verschiedenen Experimente.

Verfahren TS10 TS8 TS6 TS4

Schwellw. 12, 55 · 10−2 12, 55 · 10−2 12, 55 · 10−2 12, 55 · 10−2

Weibull 8, 51 · 10−2 9, 02 · 10−2 10, 65 · 10−2 16, 92 · 10−2

KDE 4, 21 · 10−2 4, 25 · 10−2 4, 21 · 10−2 4, 25 · 10−2

Tabelle 5.5: Die Tabelle listet die verschiedenen AUC-Werte für die vier Teilexpe-rimente auf.

deren Arbeiten verglichen werden mussten, wurde eine normale Skalierung derAchsen gewählt. Dies hat den Vorteil, dass auch die Punkte (0|1) und (1|0) dar-stellbar sind und die Kurven nicht abgeschnitten werden müssen.Um den Einfluss der Tail-Größe bei der Meta Recognition und der Meta Recogni-tion mit Kerndichteschätzung visuell besser zu verdeutlichen, zeigt Abbildung5.6 jeweils die MRET-Kurven zu allen Tail-Größen für die beiden Verfahren. Dadie Tail-Größe keinen Einfluss auf das Schwellwertverfahren hat, sind für alleTeilexperimente die Kurven für dieses Verfahren gleich.Die Tabelle 5.5 zeigt die AUC-Werte der verschiedenen Experimente. Die MetaRecognition erzeugt erwartungsgemäß immer schlechtere Ergebnisse je kleiner

69

Page 78: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

5 Experimente

0 0.2 0.4 0.6 0.8 10

0.2

0.4

0.6

0.8

1

MRMDR

MR

FAR

KDEWeibullSchwellw.

(a) TS 10

0 0.2 0.4 0.6 0.8 10

0.2

0.4

0.6

0.8

1

MRMDR

MR

FAR

KDEWeibullSchwellw.

(b) TS 8

0 0.2 0.4 0.6 0.8 10

0.2

0.4

0.6

0.8

1

MRMDR

MR

FAR

KDEWeibullSchwellw.

(c) TS 6

0 0.2 0.4 0.6 0.8 10

0.2

0.4

0.6

0.8

1

MRMDR

MR

FAR

KDEWeibullSchwellw.

(d) TS 4

Abbildung 5.5: Die Grafik zeigt die verschiedenen MRET-Kurven zu den Teilex-perimenten TS10 (a), TS8 (b), TS6 (c) und TS4 (d). Die blauen Kur-ven stehen dabei jeweils für die Meta Recognition mit Kerndich-teschätzung, die roten für die Meta Recognition nach Scheirer etal. [SRMB11] und die schwarze für das Schwellwertverfahren. Inden Legenden sind die beiden Meta-Recognition-Verfahren ausPlatzgründen durch ihre jeweilige Verteilung angegeben.

70

Page 79: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

5.3 Meta Recognition mit kleiner Klassenanzahl

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.2

0.4

0.6

0.8

1

MRMDR

MR

FAR

TS10TS8TS6TS4

(a) Meta Recognition mit KDE

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.2

0.4

0.6

0.8

1

MRMDR

MR

FAR

TS10TS8TS6TS4

(b) Meta Recognition

Abbildung 5.6: Die Grafiken stellen die jeweiligen Ergebnisse der Teilexperimen-te für die beiden Meta Recognition-Verfahren gegenüber.

71

Page 80: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

5 Experimente

Verfahren TS10 TS8 TS6 TS4

Schwellw. 0, 201 0, 201 0, 201 0, 201

Weibull 0, 149 0, 158 0, 175 0, 233

KDE 0, 103 0, 103 0, 103 0, 103

Tabelle 5.6: Die Tabelle listet die verschiedenen EER-Werte für die vier Teilexpe-rimente auf.

die Tail-Größe wird. Die Meta Recognition mit Kerndichteschätzung erzielt in je-dem Teilexperiment bessere Werte als die Meta Recognition. Die AUC kann trotzkleiner werdender Tail-Größe in etwa gehalten werden. Im Vergleich mit Tabelle5.4 fällt auf, dass auch die in der Kreuzvalidierung mittleren Fehler kleiner sindals bei der Meta Recognition.Die Tabelle 5.6 zeigt die Ergebnisse zum Gütemaß EER für die verschiedenenTeilexperimente. Auch bei diesem Maß kann eine Verschlechterung der Meta Re-cognition beobachtet werden, je mehr die Tail-Größe sich verkleinert. Die Ergeb-nisse der Meta Recognition mit Kerndichteschätzung bleiben hingegen konstantfür alle Tail-Größen.

5.3.4 Evaluierung

Ziel des Experiments war es zu überprüfen, in wie weit die Meta Recognitionsich auf Datensätzen mit kleinen Tail-Größen eignet und ob auch hier das Verfah-ren der Meta Recognition mit Kerndichteschätzung bessere Ergebnisse erzielenkann. Die verschiedenen Teilexperimente zeigen, dass die Meta Recognition aufdem MNIST-Datensatz immer schlechtere Ergebnisse erzielt, je mehr die die Tail-Größe reduziert wird. Bei einer Tail-Größe von 4 schneidet sie sogar schlechterab, als das Schwellwertverfahren, gemessen an AUC und EER. Das Schwellwert-verfahren ist sonst bei allen Teilexperimenten immer das schlechteste.In der Abbildung 5.6 kann die Verschlechterungen der Ergebnisse der Meta Re-cognition bei Reduzierung der Tail-Größe gut nachvollzogen werden. Die MetaRecognition mit Kerndichteschätzung schneidet, wie auch schon im vorherigenAbschnitt beim BSSR1, am besten von allen Verfahren ab, egal welche Tail-Größegewählt wird. Der in der Kreuzvalidierung bestimmte mittlere Fehler ist für jedesTeilexperiment kleiner als der der Meta Recognition (siehe Tabellen 5.4 und 5.5).

72

Page 81: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

5.4 Meta Recognition beim Word Spotting

Die beste Bandbreite kann diesen Fehler sogar noch einmal halbieren.Auffällig ist, dass zu allen Tail-Größen der Verlauf der AUC in Abhängigkeit vonder Bandbreite äußerst ähnlich ist (siehe Abbildung 5.4). Die Kurven weisen al-le ein fast identisches Minimum auf und auch sonst ist der Verlauf gleich. Einemögliche Erklärung hierfür ist, dass die optimale Bandbreite für die Meta Reco-gnition mit Kerndichteschätzung nur von einer sehr kleinen Menge von Scoresabhängt, die sich am Ende des Tails finden.

5.4 Meta Recognition beim Word SpottingDie Meta Recognition wurde primär als Post-Recognition-Werkzeug für die Mus-terklassifikation entwickelt. Darüber hinaus nutzen Scheirer et al. die Meta Reco-gnition aber ebenso für andere Bereiche [SRMB11]. So untersuchen sie den CorelRelevants-Datensatz in einem ihrer Experimente. Es handelt sich dabei um einenTestdatensatz aus dem Bereich des Image Retrieval, eine Anwendungsform desInformation Retrieval (siehe Abschnitt 2.2.3.2).In diesem Abschnitt soll die Meta Recognition auf das Word Spotting angewen-det werden und ihre Eignung hierfür untersucht werden. Testdatensatz ist derGeorge Washington Datensatz, der in zahlreichen Arbeiten zum Word Spotting be-reits Grundlage der Experimente war, beispielsweise in [RRF13, AGFV12, RATL11,RM07, FFM+12].Im folgenden Abschnitt wird dieser Datensatz und seine Eigenschaften genauerbeschrieben (Abschnitt 5.4.1). Anschließend wird der Aufbau des Experimentsbeschrieben, der sich wesentlich von den beiden vorherigen Experimenten un-terscheidet (Abschnitt 5.4.2). Es folgen jeweils ein Abschnitt, um die Ergebnissezu präsentieren (Abschnitt 5.4.3), und einer zur Interpretation dieser Ergebnisse(Abschnitt 5.4.4).

5.4.1 George Washington DatensatzDer George Washington Datensatz besteht aus einem 20-seitigem Auszug ausBriefen von George Washington aus dem 18 Jahrhundert [FFM+12]. Die Seitenentstammen einer größeren Textsammlung, die nicht nur von George Washing-ton selber geschrieben wurde, sondern auch von einigen seiner Untergebenen.Obwohl mehrere Schreiber bei der Erstellung der Dokumente beschäftigt waren,

73

Page 82: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

5 Experimente

ist der Schreibstil relativ ähnlich [FFM+12]. Zudem sind die Seiten in einem ver-hältnismäßig gutem Zustand in Bezug zu Artefakten und Rauschen auf den di-gitalisierten Bildern. Andere Seiten der eingangs erwähnten größeren Kollektionbefinden sich in einem wesentlich schlechterem Zustand, spielen für den Daten-satz aber keine Bedeutung.Insgesamt befinden sich 4860 Wörter auf den 20 Seiten, die in einer zugehörigenGround Truth annotiert sind [RRF13]. Die Ground Truth besteht für jedes Wortaus einer Bounding Box und dem Wort selber in ASCII-Codierung, wobei für dieBounding Box die Pixelposition der linken oberen Ecke sowie Breite und Höheangegeben werden.

5.4.2 Aufbau des Experiments

Das Experiment zum Einsatz der Meta Recognition auf Basis des Word Spot-tings basiert auf dem Konzept der Bag-of-Feature Hidden Markov Modells aus[RRF13] (siehe Abschnitt 2.2.3.2). In dieser Arbeit verwenden Rothacker et al. ei-ne Query-by-example-Methode, was bedeutet, dass jedes Wort als Query für denDatensatz benutzt wird. Daher ergeben sich 4860 Queries, die alle eine geordneteListe von Scores als Ergebnis haben (siehe Abschnitt 2.2.3.2). Pro Seite werden zujedem Query bis zu 200 Patches zurückgegeben, sodass pro Query die Rückgabe-liste eine maximale Größe von 4000 hat. Teilweise werden auch weniger als 200Patches pro Seite zurückgegeben, so dass sich die Gesamtliste auch verkleinernkann.Ausgangspunkt dieses Experiments sind die Rückgabelisten aller 4860 Queries.Die Grundlegende Annahme ist, dass bei 4000 Einträgen der Rückgabeliste, un-abhängig von der Position in der Liste, die Anzahl der korrekt erkannten Wörterum mindestens eine Größenordnung kleiner ist als die der fälschlicher zurückge-gebenen. Vorexperimente konnten diese Annahme bestätigen: Das am häufigstenauftretende Wort ist to mit 255 Vorkommen.Basierend auf dieser Annahme sollten beim Schätzen der jeweiligen Verteilun-gen die relevanten Patches nicht zu hoch ins Gewicht fallen. Dies ist in so fernrelevant, als dass im Gegensatz zur Musterklassifikation im Bereich des Informa-tion Retrieval keine Rank-1 Meta Recognition mehr vorliegt (siehe Abschnitt 3.2).Würde eine Menge von besten Scores beim Schätzen der Verteilungen benutztwerden, würde dies automatisch eine Annahme bedeuten, wie viele Scores der

74

Page 83: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

5.4 Meta Recognition beim Word Spotting

jeweiligen Listen relevant sein könnten.Für dieses Experiment werden daher alle Scores zum Schätzen der jeweiligenVerteilung benutzt. Zunächst werden die Daten für das Schwellwertverfahrenwieder auf das Intervall [0; 1] skaliert(siehe Abschnitt 5.1). Für die beiden MetaRecognition Verfahren wird das Intervall [0; 1] in 1000 äquidistante Werte unter-teilt, die als Schwellwerte für den Vergleich der CDF-Werte dienen (siehe δ inAlgorithmus 3.1 und Algorithmus 4.1). Für diese Schwellwerte wird für die bei-den Meta-Recognition-Verfahren bestimmt, welche Elemente der Rückgabelisteeinen größeren CDF-Wert haben. Alle Elemente mit kleinerem CDF-Wert werdenaus der Liste entfernt. Anschließend wird die Mean Average Precision und derMean Recall für die so gekürzte Liste bestimmt. Dieser Vorgang ist grundsätz-lich verschieden von den anderen beiden Experimenten. Dies liegt daran, dass essich nicht, wie bei der Klassifikation, um eine Rank 1 Meta Recognition handelt.Vielmehr dient der Post-Recognition-Schritt dazu, um für einen jeweiligen Queryunrelevante Elemente der Rückgabeliste zu entfernen. Da jeweils nur höchstensdie besten 200 Patches einer Seite zurückgegeben werden, wird durch die Da-ten aber immer noch Rand der gesamten Verteilungsfunktion beschrieben. Daherist der Beweis von Scheirer et al. zur Eignung der Weibull-Verteilung auch aufdiesen Fall anwendbar und sie daher theoretisch auch auf diesem Datensatz amgeeignetsten. In Abschnitt 4.3 wurde bereits beschrieben, wie in dieser Arbeit dieMeta Recognition auf Probleme des Information Retrieval angewendet wird. ZurBestimmung einer optimalen Bandbreite wird mit Hilfe einer Grid Search eineReihe von möglichen Bandbreiten durchsucht und die beste ausgewählt.Ziel ist zunächst die Ergebnisse von Rothacker et al. zu rekonstruieren [RFB+13],also eine gleiche Mean Average Precision und einen gleichen Mean Recall aufBasis der Rückgabelisten zu erzielen. Zu jedem Schwellwert bestimmt jedes derPost-Recognition-Verfahren also eine Anzahl von Elementen, die aus der Lis-te entfernt werden sollen. Nachdem diese Elemente entfernt wurden, wird dieMean Average Precision und der Mean Recall für die kleinere Liste bestimmt. Esentsteht also zu jedem Schwellwert ein spezifisches Wertepaar, dass über die dreiverschiedenen F-Scores zu einem einzigen Wert zusammengeführt wird.

75

Page 84: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

5 Experimente

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

Schwellwert

FMA

P

0.011789

102040

Abbildung 5.7: Die Grafik zeigt den Verlauf der FMAP-Werte für die angegebe-nen Schwellwerte in Abhängigkeit vom Schwellwert.

5.4.3 Ergebnisse

Als erster Schritt wird eine geeignete Bandbreite für die Meta Recognition mitKerndichteschätzung mit Hilfe einer Grid Search ausgewählt. Die Grafik 5.7 vi-sualisiert den Verlauf der FMAP-Werte für die angegebenen Bandbreiten. DasMaximum für alle FMAP-Werte und Bandbreiten ist identisch und beträgt 0,741.Es ist zu erkennen, dass für die größeren Bandbreiten die Kurve früher abfällt alsfür die kleineren. Da bei höheren Schwellwerten mehr Elemente aus der Rück-gabeliste entfernt werden, ist es besser, wenn eine Kurve später abfällt. Dies be-dingt, dass mehr Elemente entfernt werden können, ohne die FMAP-Werte zubeeinflussen. In der Abbildung 5.7 ist zu erkennen, dass für die Bandbreiten zwi-schen 0,01 und 7 die Kurven fast identisch verlaufen. Bei der Bandbreite 1 istdie Fläche unter der Kurve minimal größer, daher fällt sie erst bei geringfügiggrößeren Werten ab als die anderen Kurven. Für den weiteren Verlauf dieses Ex-periments wird daher die Bandbreite 1 verwendet.Die Grafik 5.8 visualisiert die Mean Average Precision und den Mean Recall zu

76

Page 85: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

5.4 Meta Recognition beim Word Spotting

den jeweiligen Schwellwerten bei dem Schwellwertverfahren, der Meta Recogni-tion und der Meta Recognition mit Kerndichteschätzung. Bei einem Schwellwertvon 0 werden die Rückgabelisten komplett übernehmen. In diesem Fall beträgtdie Mean Average Precision 0, 672 und der Mean Recall 0, 823. Es ist zu erken-nen, dass für die beiden Meta-Recognition-Verfahren erst bei höheren Schwell-werten sich die Werte für die Mean Average Precision und den Mean Recall inden jeweiligen Grafiken ändern. Das Schwellwertverfahren weist eine erkennba-re Änderung schon bei wesentlich kleineren Schwellwerten auf. Der Mean Recall(Abbildung 5.8b) kann für alle Verfahren bei größeren Schwellwerten nur fallen,da durch ein Entfernen von Elementen die Anzahl der relevanten Elemente inder Rückgabeliste nie gesteigert werden kann. Auf der anderen Seite steigt dieMean Average Precision, da dass Verhältnis von relevanten zu nicht relevantenElementen besser wird.Die Grafik 5.9 visualisiert die entsprechenden FMAP-Werte zu den jeweiligenSchwellwerten. Wie auch bei der Abbildung 5.8 ändern die Kurven für die beidenMeta-Recognition-Verfahren erst bei höheren Schwellwerten ihre Werte, währenddas Schwellwertverfahren bereits bei kleineren Schwellwerten eine sichtbare Än-derung aufweist. Das Maximum der FMAP-Werte ist für alle Verfahren gleichund beträgt 0,741.Die Grafik 5.10 zeigt die durchschnittliche Größe der Rückgabeliste nach dementfernen der entsprechenden Elemente für alle drei Verfahren. Der Verlauf derKurven zueinander ist nicht direkt vergleichbar, da die Schwellwerte für die ein-zelnen Verfahren unterschiedliche Bedeutungen haben. Da die besten Scores einenverhältnismäßig großen Abstand von den schlechteren haben, reichen für dasSchwellwertverfahren bereits kleine Werte aus, um eine große Anzahl von Ele-menten der Rückgabeliste zu entfernen. Durch die Form der Weibull-Verteilungund die Festlegung des Schwellwerts über die Kumulative Verteilungsfunktion,wird ein wesentlich größerer Schwellwert benötigt, um gleich viele Elemente zuentfernen.Die Tabelle 5.7 fasst die jeweils besten Werte der Kurven zusammen. Es ist zu er-kennen, dass die Mean Average Precision und der Mean Recall sich nur geringfü-gig unterscheiden, während die durchschnittliche Größe der Rückgabeliste großeUnterschiede aufweist.

77

Page 86: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

5 Experimente

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

0

0.2

0.4

0.6

0.8

1

Anteil des maximalen Schwellwerts

Mea

nA

vera

gePr

ecis

ion

WeibullKDEFester Schwellwert

(a)

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

0

0.2

0.4

0.6

0.8

Anteil des maximalen Schwellwerts

Mea

nR

ecal

l

WeibullKDEFester Schwellwert

(b)

Abbildung 5.8: Die Grafik zeigt den Verlauf der Mean Average Precision (a) unddes Mean Recall (b) in Abhängigkeit vom Schwellwert für die dreiverschiedenen Verfahren

78

Page 87: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

5.4 Meta Recognition beim Word Spotting

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

Anteil des maximalen Schwellwerts

F-Sc

ore

WeibullKDEFester Schwellwert

Abbildung 5.9: Die Grafik zeigt den Verlauf der FMAP-Werte für den George-Washington-Datensatz zu den entsprechenden Schwellwerten.Die schwarze Kurve steht für die Ergebnisse zum Verfahren mitfestem Schwellwert, die rote Kurve für die Ergebnisse der MetaRecognition mit Weibull-Verteilung und die blaue Kurve für dieErgebnisse der Meta Recognition mit Kerndichteschätzung.

Verfahren FMAP MAP MR DGR

KDE 0,741 0,677 0,817 1048

Weibull 0,741 0,681 0,811 742

Fester Schwellwert 0,741 0,689 0,802 1337

Tabelle 5.7: Die Tabelle listet die Mean Average Precision, den Mean Recall, sowiedie durchschnittliche Größe der Rückgabeliste (DGR) in Abhängig-keit der jeweils besten FMAP-Werts auf. Die Meta Recognition undMeta Recognition mit Kerndichteschätzung werden aus Platzgrün-den über ihre verwendete Verteilung aufgelistet.

79

Page 88: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

5 Experimente

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

0

500

1,000

1,500

2,000

2,500

Schwellwert

Dur

chsc

hn.G

röße

WeibullKDEFester Schwellwert

Abbildung 5.10: Die Grafik visualisiert den Verlauf der durchschnittlichen Grö-ße der Rückgabeliste zu den unterschiedlichen Schwellwerten.Die schwarze Kurve steht für die Ergebnisse zum Verfahren mitfestem Schwellwert, die rote Kurve für die Ergebnisse der MetaRecognition mit Weibull-Verteilung und die blaue Kurve für dieErgebnisse der Meta Recognition mit Kerndichteschätzung.

80

Page 89: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

5.4 Meta Recognition beim Word Spotting

5.4.4 Evaluierung

Erstes Ziel des Experiments war die Überprüfung der Ergebnisse von Rothackeret al. aus [RFB+13]. Bei einem Schwellwert von 0 werden eine Elemente aus derRückgabeliste entfernt, daher werden die Mean Average Precision und der MeanRecall für diesen Schwellwert mit den Ergebnissen aus der erwähnten Arbeit ver-glichen. Bei diesem Schwellwert wurde eine Mean Average Precision von 0, 672und ein Mean Recall von 0, 823 errechnet. Damit können die Ergebnisse von Ro-thacker et al. bestätigt werden.Die Untersuchung des Einsatzes der Meta Recognition ergibt eine Reihe von in-teressanten Ergebnissen. Zunächst ist festzustellen, dass keins der drei Verfahreneinen Vorteil in Bezug zu den FMAP-Werten erzielen konnte. Alle Verfahren er-gaben einen maximalen FMAP-Wert von 0,741. Die unterschiedlichen Werte fürdie Mean Average Precision und den Mean Recall sind in der Tabelle 5.7 auf-geführt. Es ist zu erkennen, dass die Meta Recognition eine leicht bessere MeanAverage Precision erzielen konnte, während die Meta Recognition mit Kerndich-teschätzung knapp den besten Mean Recall erreichen konnte. Die durchschnitt-lichen Größen der Rückgabelisten unterscheidet sich hingegen stark. Währendohne Anwendung eines Post-Recognition-Schritts durchschnittlich 2604 Elemen-te zurückgegeben werden, kann die Meta Recognition im Schnitt 1862 Elementeentfernen, ohne dass der Mean Recall stark beeinflusst wird. Die Meta Recogni-tion mit Kerndichteschätzung behält im Schnitt 306 Elemente mehr in der Rück-gabeliste. Offensichtlich kann die Meta Recognition hier ihren Vorteil ausspielen,dass mit durchschnittlichen 2604 Scores zur Schätzung der Weibull-Verteilungenviel mehr Scores vorliegen, als noch bei den vorherigen beiden Experimentenund dadurch die Annahme des Beweises von Scheirer et al. (siehe Abschnitt 3.2)besser erfüllt wird.Trotzdem kann der Einsatz der Meta Recognition mit Kerndichteschätzung beimGeorge-Washington-Datensatz von Vorteil sein. Als einziges der drei Verfahrenkann die es Mean Average Precision nahezu beliebig steigern. Bei dem in die-sem Experiment maximalen Schwellwert von 0,999 erreicht die Meta Recogni-tion mit Kerndichteschätzung die beste Mean Average Precision von 0,951 beieinem Mean Recall von 0,315. Die Meta Recognition erreicht nur eine maximaleMean Average Precision von 0,756 bei einem Mean Recall von 0,651. Das Schwell-wertverfahren erreicht einen Maximalwert von 0,719 bei einem Mean Recall von

81

Page 90: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

5 Experimente

0,623. Dieser Sachverhalt bevorzugt die Meta Recognition bei Anwendungen, beidenen hohe eine hohe Mean Average Precision wichtiger ist als ein hoher MeanRecall. Das Word Spotting wird zur automatisierten Indizierung von Textdoku-menten verwendet (siehe Abschnitt 2.2.3.2). Die Mean Average Precision gibt da-her an, wie verlässlich die zurückgegebenen Teile des Dokuments das gesuchteWort enthalten. Unter Umständen ist hier die Mean Average Precision wichtigerals der Mean Recall, da durch den kleineren Fehler die gefundenen Ergebnissewesentlich zuverlässiger sind. Die nicht gefundenen Wörter im Dokument kön-nen durch einen erneuten Suchlauf mit einem anderen Query nach und nach ge-funden werden.Daher ist es wichtig, dass in Abhängigkeit der Anwendung abgewogen wird, obeine hohe Mean Average Precision von wesentlich größerer Bedeutung ist als einhoher Mean Recall. In diesem Fall ist die Meta Recognition mit Kerndichteschät-zung zu bevorzugen.

5.5 DiskussionIn den Experimenten zum Einsatz der Meta Recognition bei Musterklassifikati-onsverfahren konnte gezeigt werden, dass die Meta Recognition mit Kerndichte-schätzung bessere Ergebnisse erzielt als die Meta Recognition mit Weibull-Vertei-lung. Der Grund hierfür ist, dass der Tail der Non-Match-Verteilung durch dieKerndichteschätzung häufig besser modelliert wird als von der Weibull-Vertei-lung. Die Abbildung 5.11 verdeutlicht diesen Sachverhalt visuell. In der Abbil-dung sind für alle untersuchten Datensätze des BSSR1-Datensatzes Kurven an-gegeben, die die durchschnittliche quadratische Abweichung der Modelle vonden tatsächlichen Daten zeigt. Die genaue Definition dieses Maßes wurde bereitsin Abschnitt 2.1.4 eingeführt. Der Index der einzelnen Testdaten im Datensatz istauf der x-Achse abgetragen und die durchschnittliche Summe der Fehlerquadra-te auf der y-Achse. Es ist zu erkennen, dass der Fehler der Weibull-Verteilung oftgrößer ist als der Fehler der Kerndichteschätzung. Für den Face G Datensatz er-zeugt die Weibull-Verteilung beispielsweise nur in 34 von 517 Fällen eine bessereModellierung des Tails. In den Fällen, in denen die Weibull-Verteilung besser ist,ist der Unterschied zwischen den beiden Verfahren geringer als in den Instanzen,in denen die Kerndichteschätzung besser ist. Auch die Varianz des Fehlers ist fürdie Kerndichteschätzung wesentlich geringer als bei der Weibull-Verteilung. Das

82

Page 91: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

5.5 Diskussion

50 100 150 200 250 300 350 400 450 5000

2

4

6

·10−4

Index

∑Fe

hler

quad

rate

KDEWeibull

(a) Face C

50 100 150 200 250 300 350 400 450 5000

0.2

0.4

0.6

0.8

Index

∑Fe

hler

quad

rate

KDEWeibull

(b) Face G

50 100 150 200 250 300 350 400 450 5000

5

10

Index

∑Fe

hler

quad

rate

KDEWeibull

(c) Left Index V

50 100 150 200 250 300 350 400 450 50002468

Index

∑Fe

hler

quad

rate

KDEWeibull

(d) Right Index V

Abbildung 5.11: Die Grafiken zeigen die durchschnittliche Summe der Fehler-quadrate in den Q-Q-Plots für die jeweiligen Testfälle und Da-tensätze des BSSR1-Datensatzes. Auf der x-Achse liegen in jederAbbildung die Indizes der Testfälle und auf der y-Achse die zu-gehörigen Summen der Fehlerquadrate.

83

Page 92: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

5 Experimente

bedeutet, dass im Schnitt die Kerndichteschätzung alle Daten ähnlich gut mo-delliert, während die Güte der Modellierung durch die Weibull-Verteilung hiergroßen Schwankungen unterworfen ist.Abbildung 5.12 zeigt die entsprechenden Kurven für den MNIST-Datensatz. Eszeigt sich hier das gleiche Bild. In der Mehrheit der Fälle modelliert die Kern-dichteschätzung den Tail der Verteilung wesentlich besser. Außerdem ist auchhier die Varianz des Fehlers wesentlich kleiner als bei der Meta RecognitionDer Schluss aus den Kurven ist jedoch nicht, dass die Weibull-Verteilung generellschlechter ist, da in Einzelfällen bessere Ergebnisse erzielt werden, als mit derKerndichteschätzung. Unzweifelhaft spielt die Tail-Größe hier eine große Rol-le. Wie bereits in Abschnitt 4.1 erwähnt, modelliert die Weibull-Verteilung einenunimodalen Verlauf der Daten. Ist die Tail-Größe für eine einzelne Eingabe zugroß gewählt, kann die Non-Match-Verteilung in diesem Bereich aber durchausauch multimodal sein. Dieses Problem kann die Kerndichteschätzung abfangen,da ihr Aufbau generell Schätzungen von multimodalen Verteilungen zulässt. Wiebereits in Abschnitt 4.2 erwähnt wurde, kann prinzipiell auch die gesamte Non-Match-Verteilung modelliert werden. Das Konzept der Modellierung der gesam-ten Non-Match-Verteilung wurde bereits von Grother und Phillips [GP04] ver-folgt. Sie modellieren die Non-Match-Verteilung über eine Binomialverteilung.Scheirer et al. stellen jedoch fest, dass diese Verteilung Probleme am Rand derVerteilung hat, also genau den Bereichen, die für die Meta Recognition von Be-deutung sind. In dieser Arbeit konnte gezeigt werden, dass die Meta Recognitionmit Kerndichteschätzung diesen Bereich der Non-Match-Verteilung sogar nochbesser modelliert, als die Weibull-Verteilung.

84

Page 93: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

5.5 Diskussion

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

·104

0

0.1

0.2

0.3

Index

∑Fe

hler

quad

rate

KDEWeibull

(a) TS 10

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

·104

0

0.1

0.2

0.3

Index

∑Fe

hler

quad

rate

KDEWeibull

(b) TS 8

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

·104

0

0.1

0.2

0.3

Index

∑Fe

hler

quad

rate

KDEWeibull

(c) TS 6

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

·104

0

0.1

0.2

0.3

Index

∑Fe

hler

quad

rate

KDEWeibull

(d) TS 4

Abbildung 5.12: Die Grafiken zeigen die Summe der Fehlerquadrate in den Q-Q-Plots für die vier Teilexpeirmente zum MNIST-Datensatz.

85

Page 94: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig
Page 95: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

6ZUSAMMENFASSUNG

In dieser Arbeit wurde die Meta Recognition mit Kerndichteschätzung vorge-stellt, wobei aus sich um ein neuartiges Verfahren handelt, dass auf der Me-ta Recognition nach Scheirer et al. [SRMB11] basiert. Hierbei wird die Weibull-Verteilung in der standard Meta Recognition durch eine Kerndichteschätzung er-setzt. Dies erlaubt eine bessere Anpassung an multimodale Tails der Non-Match-Verteilungen.In verschiedenen Experimenten konnte eine Verbesserung der Ergebnisse gegen-über der Meta Recognition festgestellt werden. In Abschnitt 5.2 wurde gezeigt,wie das zentrale Experiment von Scheirer et al. nachgebildet wurde. Hier konn-ten die Ergebnisse der erwähnten Arbeit bestätigt werden. Anschließend wurdedie Meta Recognition mit der Meta Recognition mit Kerndichteschätzung vergli-chen. Es konnte gezeigt werde, dass das neuere Verfahren auf diesem Datensatzbessere Ergebnisse erzielen konnte. Die Fläche unter der MRET-Kurve konntebeim Face-C-Datensatz um 83, 9%, beim Face-G-Datensatz um 16, 3%, beim Left-Index-V-Datensatz um 25, 7% und beim Right-Index-V-Datensatz um 32, 6% ver-kleinert werden.Im Abschnitt 5.3 wurde ein Experiment vorgestellt, das den Einfluss von kleinenTail-Größen auf die Meta Recognition und die Meta Recognition mit Kerndich-

87

Page 96: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

6 Zusammenfassung

teschätzung untersucht. Auch hier konnte gezeigt werden, dass die Meta Reco-gnition mit Kerndichteschätzung bessere Ergebnisse produzieren konnte. Insbe-sondere bei äußerst kleinen Tail-Größen konnten weiterhin gute Ergebnisse er-zielt werden, während das Standardverfahren in diesen Fällen sogar schlechterabschnitt, als das Referenzverfahren. Für den MNIST-Datensatz ergab sich beimEinsatz der Meta Recognition mit Kerndichteschätzung für eine Tail-Größe von10 eine relative Verbesserung der Fläche unter der MRET-Kurve von 50, 6%. Beieiner Tail-Größe von 8 konnte eine Verbesserung von 52, 9% gemessen werden,bei einer Tail-Größe von 6 eine Verbesserung von 70, 5% und bei einer Tail-Größevon 4 sogar 74, 9%. Die Ergebnisse zeigen, dass sich die Meta Recognition mitKerndichteschätzung besonders dann eignet, wenn nur eine kleine Anzahl vonScores zur Schätzung der Verteilung vorliegt.Im letzten Experiment wurden schließlich beide Verfahren auf einen Datensatzaus dem Information Retrieval angewendet, um die Eignung in einem anderenBereich als Musterklassifikation zu untersuchen. Die Ergebnisse fielen hier etwasdifferenzierter aus. Die Meta Recognition konnte bei annähernd gleicher MeanAverage Precision und gleichem Mean Recall im Schnitt 306 irrelevante Elementemehr aus der Rückgabeliste löschen, als die Meta Recognition mit Kerndichte-schätzung. Bei diesem Experiment profitiert die Meta Recognition von der hohenAnzahl an Scores, die zur Schätzung der Verteilung zur Verfügung stehen. Aufder anderen Seite konnte über die Meta Recognition eine wesentlich höhere ma-ximale Mean Average Precision erreicht werden, als mit der Meta Recognition.Der Bestwert lag hier bei 0,951 bei einem Mean Recall von 0,315. Die Meta Reco-gnition konnte nur eine maximale Mean Average Precision von 0,756 bei einemMean Recall von 0,651 erreichen. In Anwendungsfällen, bei denen die Mean Ave-rage Precision wesentlich höher gewichtet wird als der Mean Recall, ist daher dieMeta Recognition mit Kerndichteschätzung besser geeignet als die Meta Reco-gnition.In Abschnitt 5.5 wurde abschließend diskutiert, warum die Meta Recognition mitKerndichteschätzung auf den beiden Datensätzen aus dem Feld der Musterklas-sifikation bessere Resultate erzielen konnte. Dies wird bedingt durch die bessereSchätzung des Tails durch die Kerndichteschätzung. Die Wahl einer geeignetenBandbreite für die Kerndichteschätzung ist beim Einsatz in der Meta Recognitionvon äußerster Wichtigkeit. Das Standardverfahren zur Schätzung einer optima-len Bandbreite (siehe Abschnitt 4.2) konnte in den vorgestellten Experimenten

88

Page 97: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

keine guten Ergebnisse erzielen. Dies liegt daran, dass für dieses Verfahren zuwenig Elemente vorliegen, als dass die Bandbreite sicher genug geschätzt wer-den könnte. Daher wird zur Bestimmung einer optimalen Bandbreite eine GridSearch verwendet. In den Experimenten konnte gezeigt werden, dass die Kur-ve von der Fläche unter der MRET-Kurve in Abhängigkeit von der Bandbreiteimmer eine ähnliche Form hatte. Insbesondere bei unterschiedlichen Tail-Größenauf dem gleichen Datensatz war die Kurvenform fast identisch (siehe Abbildung5.4). Es wird deutlich, dass ein Unterschätzen der Bandbreite wesentlich kriti-scher ist als ein Überschätzen.Die Meta Recognition mit Kerndichteschätzung wurde in dieser Arbeit nicht mitder Machine Learning Meta Recognition verglichen [SRPB12]. Ein Vergleich wür-de nur bedingt aussagekräftig sein, da von der Machine Learning Meta Recogni-tion generell bessere Ergebnisse erwartet werden können. Dies liegt daran, dassVorwissen aus verschiedenen vorhergehenden Meta-Recognition-Durchläufen ver-wendet wird, um eine Entscheidung über eine Eingabe zu treffen. Die Meta Reco-gnition mit Kerndichteschätzung nutzt dieses Wissen nicht, sondern entscheidetnur auf Basis einer einzelnen Eingabe. Trotzdem haben beide Verfahren ihre Be-rechtigung. Die Machine Learning Meta Recognition benötigt eine entsprechendeTrainingsmenge, um den ihr zu Grunde liegenden Klassifikator zu trainieren. Eskann vorkommen, dass ein Datensatz nicht genügend Daten hergibt, um dies zuermöglichen. So hat der vorgestellte BSSR1 mit nur 517 Testbeispielen zu wenigDaten, als dass sie in Trainings- und Testmenge aufgeteilt werden könnten, mitder anschließend ein Klassifikator wie beispielsweise eine Support Vector Ma-chine trainiert werden könnte [SRPB12]. Aus diesem Grund wurde in der Arbeitvon Scheirer et al. ein Datensatz mit 6000 Eingaben erzeugt, um genügend Da-ten für Test und Training zur Verfügung zu stellen. Für den Fall, dass zu wenigDaten zum Training eines Klassifikators vorliegen, ist daher entweder die statis-tische Meta Recognition oder die Meta Recognition mit Kerndichteschätzung zuverwenden. Die Vorteile der zweiten Variante konnte in den Experimenten imKontext der Musterklassifikation deutlich gezeigt werden. Für den Einsatz beimInformation Retrieval ist abzuwägen, ob die Vorteile einer sehr hohen Mean Ave-rage Precision die Nachteile eines kleineren Mean Recall überwiegen.

89

Page 98: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig
Page 99: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

ABBILDUNGSVERZEICHNIS

2.1 Standardnormalverteilung . . . . . . . . . . . . . . . . . . . . . . . . 9

2.2 Kern Dichte Schätzung . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.3 Beispiel für einen Q-Q-Plot . . . . . . . . . . . . . . . . . . . . . . . 17

2.4 Ablauf Musterklassifikation nach Niemann . . . . . . . . . . . . . . 20

2.5 Precision-Recall-Kurve . . . . . . . . . . . . . . . . . . . . . . . . . . 24

2.6 Ablauf des Word Spottings mit Bag-of-Feature Hidden Markov Mo-dels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3.1 Ablauf Musterklassifikation nach Duda et. al. . . . . . . . . . . . . . 30

3.2 Einfache Fusion von verschiedenen Klassifikatoren . . . . . . . . . 32

3.3 Non-Match- und Match-Verteilung . . . . . . . . . . . . . . . . . . . 35

3.4 Weibull Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3.5 Meta Recognition Error Tradeoff Curve . . . . . . . . . . . . . . . . 42

4.1 Intuitive Motivation Weibull . . . . . . . . . . . . . . . . . . . . . . . 46

5.1 Fehlerraten für den BSSR1-Datensatz . . . . . . . . . . . . . . . . . . 59

5.2 AUC in Abhängigkeit von der Bandbreite für BSSR1 . . . . . . . . . 60

5.3 Vergleich aller Verfahren beim BSSR1 . . . . . . . . . . . . . . . . . . 62

5.4 AUC in Abhängigkeit von der Bandbreite MNIST . . . . . . . . . . 69

5.5 MRET-Kurven für den MNIST-Datensatz . . . . . . . . . . . . . . . 70

5.6 Gegenüberstellung MNIST . . . . . . . . . . . . . . . . . . . . . . . . 71

5.7 Grid Search für den George-Washington-Datensatz . . . . . . . . . 76

5.8 Mean Average Precision und Mean Recall George Washington . . . 78

5.9 F-Scores für den George-Washington-Datensatz . . . . . . . . . . . 79

5.10 Durchschnittliche Größe der Rückgabeliste . . . . . . . . . . . . . . 80

91

Page 100: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

ABBILDUNGSVERZEICHNIS

5.11 Durchschnittliche Summe der Fehlerquadrate BSSR1 . . . . . . . . 835.12 Durchschnittliche Summe der Fehlerquadrate MNIST . . . . . . . . 85

92

Page 101: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

LITERATURVERZEICHNIS

[AGFV12] ALMAZÁN, Jon ; GORDO, Albert ; FORNÉS, Alicia ; VALVENY, Ernest:Efficient exemplar word spotting. In: Proceedings of the British MachineConference (2012), S. 67.1 – 67.11

[AKJ02] ANTANI, Sameer ; KASTURI, Rangachar ; JAIN, Ramesh: A survey onthe use of pattern recognition methods for abstraction, indexing andretrieval of images and video. In: Pattern Recognition 35 (2002), S. 945– 965

[AL08] ALPAYDIN, E. ; LINKE, S.: Maschinelles Lernen. Oldenbourg, 2008

[Anz92] ANZAI, Yuichiro: Pattern Recognition and Machine Learning. 1. MorganKaufmann, 1992

[ARBC08] AGGARWAL, Gaurav ; RATHA, Nalini K. ; BOLLE, Ruud M. ; CHELL-APPA, Rama: Multi-biometric cohort analysis for biometric fusion. In:IEEE International Conference on Acoustics, Speech and Signal Processing,IEEE, 2008, S. 5224 – 5227

[BF95] BRUNELLI, Roberto ; FALAVIGNA, Daniele: Person IdentificationUsing Multiple Cues. In: IEEE Trans. Pattern Anal. Mach. Intell. 17(1995), Nr. 10, S. 955 – 966

[Bis06] BISHOP, Christopher M.: Pattern Recognition and Machine Learning. 9.Springer Science + Business Media, 2006

[BS10] BORTZ, Joachim ; SCHUSTER, Christof: Statistik. Springer-Verlag BerlinHeidelberg, 2010

93

Page 102: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

LITERATURVERZEICHNIS

[Chi09] CHIEN, Jen-Tzung: Minimum Rank Error Language Modeling. In:IEEE Transactions on Audio, Speech and Language Processing 2 (2009), Nr.17, S. 267 – 276

[CSN10] CHIA, Chaw ; SHERKAT, Nasser ; NOLLE, Lars: Towards a Best LinearCombination for Multimodal Biometric Fusion. In: 2010 InternationalConference on Pattern Recognition, 2010, S. 1176 – 1179

[CTG11] CHENG, Xi ; TULYAKOV, Sergey ; GOVINDARAJU, Venu: Combinationof Multiple Samples Utilizing Identification Model in Biometric Sys-tems. In: IEEE International Joint Conference on Biometrics Compendium(IJCB), 2011, 2011, S. 1 – 5

[DHS01] DUDA, Richard O. ; HARD, Peter E. ; STORK, David G.: Pattern Classi-fication. 2. John Wiley & Sons Inc., 2001

[Fer03] FERBER, Reginald: Information Retrieval. Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web. 1. Heidelberg :dpunkt.verlag, 2003

[FFM+12] FRINKEN, Volkmar ; FISCHER, Andreas ; MANMATHA, R. ; ; BUNKE,Horst: A Novel Word Spotting Method Based on Recurrent NeuralNetworks. In: IEEE Transactions on Pattern Analysis and Machine Intel-ligence 34 (2012), Nr. 2, S. 211 – 224

[Fin03] FINK, Gernot A.: Mustererkennung mit Markov-Modellen. 1. B.G. Teub-ner Verlag, 2003

[Geo04] GEORGII, Hans-Otto: Stochastik. 2. Berlin : de Gruyter, 2004

[GP04] GROTHER, Patrick ; PHILLIPS, P. J.: Models of Large Population Reco-gnition Performance. In: Proceedings of the 2004 IEEE Computer SocietyConference on Computer Vision and Pattern Recognition Bd. 2, 2004, S. 68– 75

[Gum54] GUMBEL, Emil J.: Statistical Theory of Extreme Values and Some Prac-tical Applications / National Bureau of Standards Applied Mathema-tics. 1954. – Forschungsbericht

94

Page 103: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

LITERATURVERZEICHNIS

[HEK07] HARTUNG, Joachim ; ELPELT, Bärbel ; KLÖSENER, Karl-Heinz: Multi-variate Statistik - Ein Lehr- und Handbuch der angewandten Statistik. Bd. 7.Oldenbourg Wissenschaftsverlag GmbH, 2007

[HEK09] HARTUNG, Joachim ; ELPELT, Bärbel ; KLÖSENER, Karl-Heinz: Sta-tistik - Ein Lehr- und Handbuch der angewandten Statistik. OldenbourgWissenschaftsverlag GmbH, 2009

[HG11] HOLLING, Heinz ; GEDIGA, Günther: Statistik - Deskriptive Verfahren.Hogrefe Verlag GmbH, 2011

[HSS13] HEIDENREICH, Nils-Bastian ; SCHINDLER, Anja ; SPERLICH, Stefan:Bandwidth selection for kernel density estimation: a review of fullyautomatic selectors. In: AStA Advances in Statistical Analysis 97 (2013),Nr. 4, S. 403 – 433

[JMS96] JONES, M. C. ; MARRON, J. S. ; SHEATHER, S. J.: A brief survey ofbandwidth selection for density estimation. In: Journal of the AmericanStatistical Association 91 (1996), S. 401 – 407

[KLP01] KANE, Shaun ; LEHMAN, Andrew ; PARTRIDGE, Elizabeth: IndexingGeorge Washington’s Handwritten Documents - A Study of WordMatching Techniques / University of Massachusetts. 2001. – For-schungsbericht

[LBBH98] LECUN, Yann ; BOTTOU, Léon ; BENGIO, Yoshua ; HAFFNER, Patrick:Gradient-based learning applied to document recognition. In: Procee-dings of the IEEE 86 (1998), Nr. 11, S. 2278 – 2324

[MB05] MARIÉTHOZ, Johnny ; BENGIO, Samy: A Bayesian Framework forScore Normalization Techniques Applied to Text Independent Spea-ker Verification. In: IEEE Signal Processing Letters 12 (2005), Nr. 7, S.532 – 535

[McC12] MCCOOL, John I.: Using the Weibull Distribution: Reliability, Modellingand Inference. 1. John Wiley and Sons, Inc., 2012

[MCGS11] MEIER, Ueli ; CIRESAN, Dan C. ; GAMBARDELLA, Luca M. ; SCHMID-HUBER, Jürgen: Better Digit Recognition with a Committee of Simple

95

Page 104: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

LITERATURVERZEICHNIS

Neural Nets. In: 2011 International Conference on Document Analysis andRecognition (ICDAR), 2011, S. 1250 – 1254

[MRS09] MANNING, Christopher D. ; RAGHAVAN, Prabhakar ; SCHÜTZE, Hin-rich: An Introduction to Information Retrieval. Cambridge, England :Cambridge University Press, 2009

[NCDJ08] NANDAKUMAR, Karthik ; CHEN, Yi ; DASS, Sarat C. ; JAIN, Anil: Li-kelihood Ratio-Based Biometric Score Fusion. In: IEEE Transactions onPattern Analysis and Machine Intelligence 30 (2008), Nr. 2, S. 342 – 347

[Nie83] NIEMANN, Heinrich: Klassifikation von Mustern. Berlin : Springer, 1983

[Oda02] ODAI, Reginald Nii O.: Correlated Weibull regression model for multi-variate binary data / Technische Universität Dortmund. 2002. – Tech-nischer Bericht

[Par62] PARZEN, Emanuel: On Estimation of a Probability Density Functionand Mode. In: The Annals of Mathematical Statistics 33 (1962), Nr. 3, S.1065 – 1076

[PK02] PRABHAKAR, Salil ; K.JAIN, Anil: Decision-level fusion in fingerprintverification. In: Pattern Recognition 35 (2002), Nr. 4, S. 861 – 874

[PMK09] POH, Norman ; MERATI, Amin ; KITTLER, Josef: Making Better Bio-metric Decisions with Quality and Cohort Information: A Case Studyin Fingerprint Verication. In: 17th European Signal Processing Conference(EUSIPCO 2009) (2009), S. 70 – 74

[RATL11] RUSIÑOL, Marçal ; ALDAVERT, David ; TOLEDO, Ricardo ; LLA-DÓS, Josep: Browsing heterogeneous document collections by asegmentation-free word spotting method. In: Proceedings of the Inter-nationl Conference on Document Analysis and Recognition (2011), S. 63 –67

[RD06] RAYKAR, Vikas C. ; DURAISWAMI, Ramani: Fast optimal bandwidthselection for kernel density estimation. In: GHOSH, J. (Hrsg.) ; LAM-BERT, D. (Hrsg.) ; SKILLICORN, D. (Hrsg.) ; SRIVASTAVA, J. (Hrsg.): Pro-ceedings of the sixth SIAM International Conference on Data Mining, 2006,S. 524 – 528

96

Page 105: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

LITERATURVERZEICHNIS

[RFB+13] ROTHACKER, Leonard ; FINK, Gernot A. ; BANERJEE, P. ; BHATTACHA-RYA, U. ; CHAUDHURI, B. B.: Bag-of-features HMMs for Segmentation-free Bangla Word Spotting. In: Proceedings of the 4th International Work-shop on Multilingual OCR, 2013 (MOCR ’13), S. 5:1 – 5:5

[RM03] RATH, Toni M. ; MANMATHA, M.: Features for Word Spotting in His-torical Manuscripts. In: Proceedings of the 7th International Conference onDocument Analysis and Recognition (ICDAR) Bd. 1, 2003, S. 218 – 222

[RM07] RATH, T. M. ; MANMATHA, M.: Word Spotting for Historical Docu-ments. In: Int. Journal on Document Analysis and Recognition 9 (2007),Nr. 2-4, S. 139 – 152

[RRF13] ROTHACKER, Leonard ; RUSIÑOL, Marçal ; FINK, Gernot A.: Bag-of-Features HMMs for Segmentation-Free Word Spotting in HandwrittenDocuments. (2013), S. 1305 – 1309

[SNF02] STEHLING, Renato O. ; NASCIMENTO, Mario A. ; FALCAO, Alexand-re X.: A Compact and Efficient Image Retrieval Approach Based onBorder/Interior Pixel Classification. In: ACM International Conferenceon Information and Knowledge Management, 2002, S. 102 – 109

[SRMB11] SCHEIRER, Walter J. ; ROCHA, Anderson ; MICHEALS, Ross J. ; BOULT,Terrance E.: Meta-Recognition: The Theory and Practice of Recogniti-on Score Analysis. In: IEEE Transactions on Pattern Analysis and MachineIntelligence 33 (2011), Nr. 8, S. 1689 – 1695

[SRPB12] SCHEIRER, Walter J. ; ROCHA, Anderson ; PARRIS, Jonathan ; BOULT,Terrance E.: Learning for Meta-Recognition. In: IEEE Transactions onInformation Forensics and Security 7 (2012), Nr. 4, S. 1214 – 1224

[Ste13] STELAND, Ansgar: Basiswissen Statistik. 3. Berlin Heidelberg : SpringerSpektrum, 2013

[TS06] TURBIN, Andrew ; SCHOLER, Falk: User performance versus precisi-on measures for simple search tasks. In: Proceedings of the 29th Annualinternational ACM SIGIR Conference on Research and Development in In-formation Retrieval (2006), S. 11 – 18

97

Page 106: Masterarbeit - patrec.cs.tu-dortmund.depatrec.cs.tu-dortmund.de/pubs/theses/ma_sudholt.pdf · als diskret bezeichnet, während solche, die jeden Wert aus R annehmen können, stetig

LITERATURVERZEICHNIS

[WK06] WOO, Nayoung ; KIM, Hakil: Multiple-Biometric Fusion Methodsusing Support Vector Machine and Kernel Fisher Discriminant. In:SIRLANTZIS, K. (Hrsg.): Proceedings of the 6th International Conferenceon Recent Advances in Soft Computing (RASC 2006), 2006, S. 428 – 433

98