mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung,...

131
Dr. Jochen Kerdels, Prof. Dr. Gabriele Peters Dr. Jens Garstka, Prof. Dr. Gabriele Peters Modul 31421 Interaktive Systeme 01698 Interaktive Systeme I: Konzepte und Methoden des Computersehens 01699 Interaktive Systeme II: Konzepte und Methoden bildbasierter 3D-Rekonstruktion LESEPROBE mathematik und informatik

Transcript of mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung,...

Page 1: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

Dr. Jochen Kerdels, Prof. Dr. Gabriele Peters Dr. Jens Garstka, Prof. Dr. Gabriele Peters

Modul 31421 Interaktive Systeme 01698 Interaktive Systeme I: Konzepte und Methoden des Computersehens 01699 Interaktive Systeme II: Konzepte und Methoden bildbasierter 3D-Rekonstruktion LESEPROBE

RR

mathematik und

informatik

Page 2: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

Der Inhalt dieses Dokumentes darf ohne vorherige schriftliche Erlaubnis durch die FernUniversität in Hagen nicht (ganz oder teilweise) reproduziert,

benutzt oder veröffentlicht werden. Das Copyright gilt für alle Formen der Speicherung und Reproduktion, in denen die vorliegenden Informationen

eingeflossen sind, einschließlich und zwar ohne Begrenzung Magnetspeicher, Computerausdrucke und visuelle Anzeigen. Alle in diesem Dokument

genannten Gebrauchsnamen, Handelsnamen und Warenbezeichnungen sind zumeist eingetragene Warenzeichen und urheberrechtlich geschützt.

Warenzeichen, Patente oder Copyrights gelten gleich ohne ausdrückliche Nennung. In dieser Publikation enthaltene Informationen können ohne

vorherige Ankündigung geändert werden.

Page 3: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

Dr. Jochen Kerdels, Prof. Dr. Gabriele Peters

Kurs 01698 Interaktive Systeme I: Konzepte und Methoden des Computersehens LESEPROBE

mathematik und

informatik

Page 4: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

Interaktive Systeme I:

Konzepte und Methoden des ComputersehensKurseinheit 1

Grundlagen der Signalverarbeitung

Jochen Kerdels und Gabriele Peters

©2016 FernUniversität in Hagen Alle Rechte vorbehalten 01698-01-WS16/17Fakultät für Mathematik und Informatik

Page 5: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

8

Bildquelle(n): berechnet mit gimp 2.6

Page 6: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

Vorwort

Es freut uns, Sie als Teilnehmerinnen und Teilnehmer des Kurses 01698 – Inter-aktive Systeme I begrüßen zu dürfen. Der vorliegende Kurs hat das Ziel, Ihnendie zentralen Konzepte und Methoden des Computersehens zu vermitteln. DasGebiet des sogenannten Computersehens – der visuellen Wahrnehmung dernatürlichen Umgebung durch einen Computer – kombiniert eine große Zahlunterschiedlicher und z.T. anspruchsvoller Verfahren und Konzepte u.a. derklassischen Signalverarbeitung, Analysis und linearen Algebra, Statistik undWahrscheinlichkeitstheorie, sowie des maschinellen Lernens. Diese methodischeVielfalt macht auf der einen Seite den besonderen Reiz des Computersehens aus,zuweilen stellt sie jedoch auf der anderen Seite eine gewisse Einstiegshürde dar.In diesem Sinne verfolgt der Kurs zwei Ziele: Die repräsentative Auswahl der indiesem Kurs vorgestellten Konzepte und Methoden soll Ihnen einen Eindruckder Vielfalt des Gebietes des Computersehens vermitteln und Ihnen gleichzei-tig ein solides Verständnis der zentralen konzeptionellen und mathematischenGrundlagen verschaffen. Das in diesem Kurs vermittelte Wissen befähigt Siesomit einerseits, einen großen Teil „alltäglicher“ Aufgaben des Computersehenspraktisch bewältigen zu können, und es befähigt Sie andererseits, weiterfüh-render Fachliteratur mit ausreichenden konzeptionellen und mathematischenFähigkeiten zu begegnen.

Die ersten beiden Kurseinheiten haben ihren Schwerpunkt in der „klassischen“Signalverarbeitung. Sie stellen das theoretische Fundament dar, auf dem alleweiteren Verfahren implizit oder explizit aufbauen. Kurseinheit 1 definiert zu-nächst die grundlegenden Eigenschaften der in diesem Kurs behandelten Signale.Anschließend wird in einem kurzen Abschnitt erläutert, wie analoge Signale indigitale Signale überführt werden. Die zweite Hälfte der Kurseinheit konzen-triert sich auf eine zentrale Eigenschaft fast aller signalverarbeitender Systeme:Linearität. Darauf aufbauend wird die mathematische Operation der Faltungeingeführt und im Detail untersucht. Kurseinheit 2 baut auf das zuvor gelegteFundament auf und widmet sich in Gänze einer eingehenden und ausführlichenBehandlung der diskreten Fourier-Transformation. Ausgehend von einer fastinformellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert, wird im Anschluss die komplexwertige,mathematische Beschreibung der Fourier-Transformation erarbeitet. Es folgteine vollständige und ausführliche Beschreibung der sogenannten Fast FourierTransform (FFT). Die Kurseinheit endet mit einer Einordnung der diskretenFourier-Transformation in die Familie der Fourier-Transformationen und einerErweiterung der Fourier-Transformation auf den zweidimensionalen Fall.

3

Page 7: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

Im Anschluss daran werden in der dritten Kurseinheit ausgewählte Themender Bildverarbeitung im Detail vorgestellt. Hierbei werden Ihnen nicht nurdie Konzepte der einzelnen Methoden vermittelt, sondern insbesondere auchdie jeweils verwendeten mathematischen Beschreibungen. Beginnend mit einerkurzen Einführung in verschiedene Bildformate, Farbmodelle und der realenOrganisation der Bilddaten auf einem Computersystem, bilden im Anschlussdie Themen Segmentierung, Kantendetektion und merkmalbasierte Verfahrenden Schwerpunkt der restlichen Kurseinheit. Die vorgestellten Verfahren sind indiesem Zusammenhang insbesondere unter dem Aspekt ausgewählt worden, dasssie ein solides Grundwissen bzgl. der wichtigsten Konzepte und mathematischenMethoden der digitalen Bildverarbeitung vermitteln.

Die vierte Kurseinheit legt ihren Schwerpunkt auf erweiterte Methoden ausden Bereichen der Statistik, Wahrscheinlichkeitsrechnung und des maschinellenLernens, die eine Interpretation von Signalen bzw. Daten auf einem semantischhöheren Niveau ermöglichen. Die vorgestellten Verfahren sind hierbei repräsen-tativ für Methoden, die am Ende einer Signalverarbeitungskette stehen und diewahrgenommenen visuellen Signale schließlich in eine inhaltlich interpretierbareForm überführen.

Hagen im Mai 2016

Jochen Kerdels, Gabriele Peters

Noch ein Hinweis zum Sprachgebrauch. Da wissenschaftliche Texte und Lehr-texte möglichst objektiv formuliert sein sollten, und da es sich bei der Annahme,die Verwendung des einen Geschlechts schließe das andere automatisch ein, umeinen Irrtum handelt, ist der vorliegende Text weder in ausschließlich femininernoch in ausschließlich maskuliner Form verfasst. Vielmehr verwenden wir imWechsel mal die männliche, mal die weibliche Form und orientieren uns imÜbrigen an den Empfehlungen zur „Gleichbehandlung im Sprachgebrauch“ derGesellschaft für Informatik e.V. von 1999 und an den „Richtlinien für einennicht-sexistischen Sprachgebrauch“ der UNESCO von 1993.

Page 8: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

Kurseinheit 1

Grundlagen der

Signalverarbeitung

Inhaltsübersicht

1.1 Signale und ihre zugrunde liegenden Prozesse . . . . . 12

1.1.1 Statistische Beschreibung . . . . . . . . . . . . . . . . . 14

1.2 Analog-Digital-Wandlung . . . . . . . . . . . . . . . . . . 31

1.3 Lineare Systeme . . . . . . . . . . . . . . . . . . . . . . . 36

1.3.1 Superpositionsprinzip . . . . . . . . . . . . . . . . . . . 40

1.3.2 Dekomposition von Signalen . . . . . . . . . . . . . . . . 42

1.3.3 Analyse nicht-linearer Systeme . . . . . . . . . . . . . . 48

1.4 Faltung diskreter Signale . . . . . . . . . . . . . . . . . . 49

1.4.1 Eigenschaften der Faltung . . . . . . . . . . . . . . . . . 54

1.4.2 Elementare Impulsantworten . . . . . . . . . . . . . . . 55

1.4.3 Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . 59

1.5 Faltung kontinuierlicher Signale . . . . . . . . . . . . . . 60

1.5.1 Dirac-Impuls . . . . . . . . . . . . . . . . . . . . . . . . 61

1.5.2 Faltung . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

1.6 Selbsttestaufgaben . . . . . . . . . . . . . . . . . . . . . . 65

1.7 Lösungen der Selbsttestaufgaben . . . . . . . . . . . . . 69

9

Page 9: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

10 KURSEINHEIT 1. GRUNDLAGEN DER SIGNALVERARBEITUNG

Lernziele:In dieser Kurseinheit lernen Sie zunächst die grundlegenden Ei-genschaften digitaler Signale im Kontext der Signalverarbeitungkennen. Im Anschluss wird erläutert, wie diese Signale durch linea-re Systeme verändert und miteinander kombiniert werden können.Den Abschluss der Kurseinheit bildet eine Betrachtung der Faltung– einer mathematischen Operation, die die Kombination und Filte-rung von Signalen ermöglicht und im engen Zusammenhang mitden zuvor beschriebenen linearen Systemen steht. Da die in dieserKurseinheit vorgestellten Konzepte und Methoden zu den wichtigs-ten Grundlagen der digitalen Signalverarbeitung zählen, werdendiese besonders ausführlich behandelt, um eine solide Grundlagefür das weitere Verständnis der folgenden Kurseinheiten zu legen.

Das Arbeits- und Forschungsgebiet der Mensch-Computer-Interaktion (MCI)umfasst ein weites Spektrum an Themengebieten und interessanten Problem-stellungen. Es reicht von „klassischen“ Fragestellungen, wie der Gestaltungvon grafischen Benutzungsschnittstellen und dem Entwurf direkter, haptischerSchnittstellen, über die Erforschung zukünftiger Schnittstellen, die sich dieErfassung, Verarbeitung und Interpretation von Sprache, Gestik, Mimik undEmotion zu eigen machen, zu sehr grundsätzlichen Fragestellungen, wie etwa derFrage, wie die Semantik komplexer Informationen von einem Computersystemerlernt werden kann.

Ein wichtiger und zentraler Aspekt der Mensch-Computer-Interaktion, der alsverbindendes ElementInteraktionsbegriff aller Teilgebiete der MCI aufgefasst werden kann, isthierbei der Begriff der Interaktion, wie er bereits im Kurs 01697 „Einführung inMensch-Computer-Interaktion“ definiert wurde:

Definition 1.1 (Interaktion).

Interaktion ist der zielgerichtetea, wechselseitige Transfer von Informa-tion zwischen zwei oder mehr Entitäten.

aHier ist das Ziel im Sinne von Intention / Absicht / Plan gemeint, nicht dieRichtung des Informationstransfers. Die Richtung des Informationstransfers ist jedochmeist ebenfalls durch das Ziel implizit mit vorgegeben.

Essenzieller Bestandteil dieser Kommunikation zwischen den Entitäten einer In-teraktion ist die Verarbeitung der eingehenden Signale auf Seiten des Computers.Sie ist eine zwingende Voraussetzung dafür, dass der Kommunikationsprozesszwischen Mensch und Computer wechselseitig stattfinden kann und der Com-puter adäquat auf die vom Menschen transferierte Information1 reagieren kann.

1oder allgemein: auf die Information von anderen an der Interaktion beteiligten Entitäten

Page 10: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

11

In diesem Sinne befasst sich diese Kurseinheit zunächst mit den Grundlagenallgemeiner Signalverarbeitung, ohne sich dabei auf eine konkrete Form derInteraktion zwischen Mensch und Computer zu beschränken. Die folgendenAbschnitte orientieren sich an dem äußerst empfehlenswerten Buch „DigitalSignal Processing“ von Steven W. Smith [Smi02]2.

2Das Buch ist online unter der Adresse http://www.dspguide.com kostenfrei und legalzum Download verfügbar.

Page 11: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

12 KURSEINHEIT 1. GRUNDLAGEN DER SIGNALVERARBEITUNG

1.1 Signale und ihre zugrunde liegenden

Prozesse

Lernziele:In diesem Abschnitt werden Sie die grundlegenden Beziehungenzwischen Signalen und ihren zugrunde liegenden Prozessen ken-nenlernen. In diesem Zusammenhang werden die wesentlichenAspekte einer statistischen Beschreibung der Signale und einerdarauf basierenden Approximation der statistischen Eigenschaftender zugehörigen Prozesse betrachtet. Besondere Aufmerksamkeitwird hierbei der Erstellung und den Eigenschaften von Histogram-men gewidmet, da diese in vielen Algorithmen und Verfahren derMensch-Computer-Interaktion Verwendung finden.

Im Kontext der Mensch-Computer-Interaktion findet der Begriff des Signals aufverschiedene Weise Verwendung. So werden beispielsweise die Nachrichten inner-halb einer grafischen Benutzungsschnittstelle zuweilen als Signale3 bezeichnet.

Signalbegriff An anderer Stelle, im Rahmen der Erkennung und Interpretation von Gestenund Mimik, werden bestimmte, charakteristische Bewegungen oder spezifischeGesichtsausdrücke mit dem Begriff des Signals verknüpft. An wieder andererStelle dienen Signale dazu, die Benutzerin über einen Zustandswechsel des Sys-tems zu informieren, zum Beispiel durch die Wiedergabe eines Signaltons. Dieseund viele andere Verwendungen des Signalbegriffes im MCI-Zusammenhangfinden im Allgemeinen in einem jeweils sehr spezifischen und engen Kontextstatt und sind nicht Gegenstand dieser Kurseinheit.

An dieser Stelle soll es vielmehr um Signale im folgenden Sinne gehen:

Definition 1.2 (Signal).

Ein Signal ist die Beschreibung einer Variablen in Abhängigkeit eineranderen Variablen.

Der Temperaturverlauf eines Tages ist ein Beispiel für ein Signal in diesemSinne. Das Signal beschreibt in diesem Fall die Veränderung der VariablenTemperatur in Abhängigkeit der Variablen Zeit. In diesem Beispiel ist dieTemperatur die sogenannte abhängige Variableabhängige &

unabhängigeVariablen

und die Zeit die sogenann-te unabhängige Variable. Beide Variablen – sowohl die Temperatur als auchdie Zeit – können Werte aus einem kontinuierlichen Wertebereich annehmen.Man spricht dementsprechend von einem kontinuierlichen Signal. Für die Ver-wendung innerhalb eines Computersystems wird ein kontinuierliches Signalüblicherweise mittels eineskontinuierliche &

diskrete SignaleAnalog-Digital-Wandlers digitalisiert. Man spricht

anschließend von einem diskreten Signal. In diesem Zusammenhang beziehtsich der Begriff „diskret“ sowohl auf die unabhängige als auch auf die abhän-gige Variable. Im Rahmen der Digitalisierung eines Signals wird entlang der

3z.B. beim Signals&Slots-Konzept des GUI-Frameworks Qt

Page 12: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.1. SIGNALE UND IHRE ZUGRUNDE LIEGENDEN PROZESSE 13

Abbildung 1.1: Darstellung eines Temperaturverlaufs.

unabhängigen Variablen in regelmäßigen4 Abständen die abhängige Variablequantisiert, Quantisierungd.h. die abhängige Variable wird auf einen Wert innerhalb einesendlichen, ganzzahligen Intervalls abgebildet. Handelt es sich z.B. um einen10-Bit Analog-Digital-Wandler, so wird die abhängige Variable auf einen Wertaus dem Intervall {0..1023} abgebildet. Wie dieser Wert zu interpretieren ist,hängt vom jeweiligen Messbereich5 des Analog-Digital-Wandlers ab. Gingeder Messbereich im Falle unseres Beispiels von -51,2 ℃ bis +51,1 ℃, so würdedie Temperatur in Schritten von 0,1℃ quantisiert. Die Schrittweite, mit derentlang der unabhängigen Variablen die abhängige Variable quantisiert wird,wird als Abtastrate Abtastrate(engl. sampling rate) bezeichnet. In seltenen Fällen gibt esauch Mischformen zwischen kontinuierlichen und diskreten Signalen, bei denenjeweils eine der beiden Variablen kontinuierlich und die andere diskret ist. EinSignal mit einer diskreten unabhängigen Variablen wird hierbei auch zeitdiskretgenannt und ein Signal mit einer diskreten abhängigen Variablen wertdiskret.

Abbildung 1.1 illustriert die übliche Darstellungsweise eines Signals in Formeines Graphen. Hierbei repräsentiert die vertikale Achse6 die abhängige Variable(hier: die Temperatur) und die horizontale Achse7 die unabhängige Variable (hier:die Zeit). Zuordnung der

AchsenDas in Abbildung 1.1 dargestellte Signal ist ein kontinuierliches Signal.

Handelt es sich um ein diskretes Signal, so werden die einzelnen Messwertemeist als einzelne Punkte dargestellt, sofern ihre Anzahl relativ gering (< 100)ist. Grundsätzlich sollte man sich hierbei jedoch nicht rein auf die Darstellungverlassen, sondern über die Beschriftung des Graphen bzw. den jeweiligenKontext überprüfen, ob es sich um ein kontinuierliches oder um ein diskretesSignal handelt.

4Es werden üblicherweise regelmäßige Abstände verwandt. Dies ist jedoch nicht zwingenderforderlich.

5auch Eingangssignalbereich genannt6Die vertikale Achse wird auch als y-Achse, Ordinate oder Amplitude bezeichnet.7Die horizontale Achse wird auch als x-Achse, Abszisse oder Domäne bezeichnet.

Page 13: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

14 KURSEINHEIT 1. GRUNDLAGEN DER SIGNALVERARBEITUNG

(a) (b)

(c) (d)

Abbildung 1.2: Vier Beispiele für einfache Signale.

1.1.1 Statistische Beschreibung

Nachdem nun der vorherige Abschnitt die grundlegenden Eigenschaften undden allgemeinen Aufbau von Signalen definiert hat, stellt sich die Frage, wieverschiedene, konkrete Signale charakterisiert und untereinander verglichen

Charakterisierung& Vergleich

von Signalen

werden können. Betrachtet man beispielsweise die vier in Abbildung 1.2 darge-stellten Signale, so erscheinen die Unterschiede und Gemeinsamkeiten zwischenden Signalen offensichtlich:

• Signal (a) scheint eine niederfrequente Schwingung mit hohem Rauschan-teil8 zu sein.

• Signal (b) hat einen deutlich geringeren Rauschanteil und beschreibteinen fast linearen Anstieg der Amplitude.

• Signal (c) ist ein klassisches Rechtecksignal mit einem ebenfalls nur sehrgeringem Rauschanteil.

• Signal (d) hingegen ist ein komplexes Signal mit zunächst steigenderund anschließend wieder fallender Amplitude und einem mit Signal (a)vergleichbarem Rauschanteil.

8Der Begriff Rauschanteil wird an dieser Stelle rein informal verwendet, um einen subjek-tiven Eindruck zu beschreiben.

Page 14: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.1. SIGNALE UND IHRE ZUGRUNDE LIEGENDEN PROZESSE 15

Einem menschlichen Betrachter fällt es in der Regel leicht, diese charakteristi-schen Eigenschaften der Signale anhand einer einfachen visuellen Prüfung derGraphen dieser Signale abzuleiten. Entspringen die Signale einer bestimmtenDomäne – handelt es sich zum Beispiel um Gehirnstromwellen, die durch einEEG9 erfasst wurden visuelle Prüfung– so sind Expertinnen auf dem jeweiligen Gebiet häufig inder Lage, eine sehr präzise und aussagekräftige Charakterisierung der Signalevorzunehmen. Im Falle der EEG-Signale kann beispielsweise eine erfahreneExpertin rein aufgrund der visuellen Prüfung auf mögliche Krankheiten, z.B.Epilepsie, schließen.

Auf den ersten Eindruck hin mag die Methode der visuellen Prüfung sehrsubjektiv, unpräzise und unzuverlässig erscheinen. Es ist jedoch vielfach so,dass in vielen Anwendungsbereichen, wie z.B. auch in der klinischen Analysevon EEG-Daten, eine ausschließlich computergestützte Analyse der Signalenoch nicht die Qualität einer manuellen Expertenanalyse erreicht. Ein Blick aufAbbildung 1.3 mag einen Eindruck davon vermitteln, warum die Entwicklunggeeigneter, rein computergestützter Analysen so schwierig ist. Die dargestellteTabelle zeigt die jeweils ersten 40 Abtastwerte der vier Beispielfunktionen (a)bis (d). Der Versuch, nur anhand dieser Tabellendaten10 eine Charakterisierungder Signale vorzunehmen, erscheint ungleich schwerer im Vergleich zur visuellenDarstellung. Dies liegt zum einen daran, dass durch die Betrachtung einzelnerDatenpunkte der größere Kontext verloren geht und zum Kontext &

qualitativerVergleich

anderen, dass dietextuelle Darstellung der Datenpunkte keinen visuellen, „qualitativen“ Vergleichbzgl. ihrer relativen räumlichen Position erlaubt. So ist beispielsweise beider tabellarischen Darstellung die Abschätzung des Rauschanteils deutlichschwieriger als bei einer grafischen Darstellung. Um dennoch nützliche Aussagenüber die Charakteristik eines Signals machen zu können, bedient man sichu. A. Mitteln der Statistik, welche in ihren Grundzügen in den folgendenUnterabschnitten näher beschrieben werden.

Arithmetisches Mittel und Standardabweichung

Wie im vorhergehenden Abschnitt motiviert, dienen die nachfolgend beschrie-benen, statistischen Maßzahlen und Verfahren der Bestimmung von charakte-ristischen statistische

MaßzahlenEigenschaften diskreter Signale. Anhand dieser Eigenschaften können

Signale z.B. miteinander verglichen oder bestimmten Klassen zugeordnet wer-den.

Eine erste, einfache und intuitive Maßzahl ist der durchschnittliche Abtastwerteines Signals. Dieser Wert wird als arithmetisches Mittel des Signals bezeichnetund wird aus der Summe über alle Abtastwerte dividiert durch ihre Anzahlberechnet:

9Ein Elektroenzephalograph ist ein Gerät zur Messung von Gehirnstromwellen über ander Kopfhaut angebrachte Elektroden.

10Die Daten in der Tabelle sind natürlich unvollständig, da sie nur die ersten 40 Werteumfassen. Aber auch eine seitenfüllende Darstellung aller 512 Werte hätte vermutlich nurwenig mehr Erhellendes beigetragen.

Page 15: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

16 KURSEINHEIT 1. GRUNDLAGEN DER SIGNALVERARBEITUNG

Abtastwert (a) (b) (c) (d)

0 0.229 0.0883 1.02 0.02911 0.0246 0.102 1.02 0.1422 0.827 0.162 1.03 0.7573 0.0282 0.107 1.01 0.1474 0.547 0.0904 1.03 0.1125 0.913 0.187 1.02 0.7236 0.531 0.186 1 0.2837 0.531 0.0153 1.03 0.468 0.302 0.0102 1.04 0.8529 0.925 0.0924 1.03 0.99410 0.909 0.0724 1.03 0.87511 1.06 0.132 1.01 0.73912 0.936 0.181 1.02 0.60113 0.532 0.0575 1.01 0.25114 0.428 0.198 1.02 0.22715 0.174 0.0941 1.01 0.58616 0.654 0.0666 1.02 0.48317 1.1 0.0596 1.01 118 0.428 0.194 1.02 0.29519 1.06 0.0193 1.01 0.74720 0.291 0.0393 1.02 0.73621 0.593 0.155 1.01 0.26222 0.884 0.0715 1.05 0.58723 0.571 0.214 1.02 0.99924 0.345 0.0551 1 0.95525 0.996 0.147 1.03 0.73826 1.02 0.2 1 0.28827 0.695 0.0879 1.05 0.67528 0.368 0.0917 1.03 0.66429 0.834 0.22 1 0.70830 0.484 0.112 1.03 0.15731 1.07 0.155 1.03 0.61832 0.745 0.0904 1.03 0.87533 0.976 0.0981 1.02 134 0.783 0.0585 1.03 0.10635 0.952 0.203 1.02 0.5736 0.787 0.103 1.05 0.13437 0.912 0.122 1.03 0.73438 0.96 0.205 1.05 0.63339 1.2 0.0575 1.02 0.189...

......

......

Abbildung 1.3: Die ersten 40 Abtastwerte der vier Signalbeispiele aus Abbildung 1.2.

Page 16: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.1. SIGNALE UND IHRE ZUGRUNDE LIEGENDEN PROZESSE 17

(a) (b)

(c) (d)

Abbildung 1.4: Arithmetisches Mittel und Standardabweichung von vier Beispielsignalen.

Definition 1.3 (Arithmetisches Mittel).

Gegeben sei das Signal x = (x0, x1, . . . , xN−1) bestehend aus N Abtast-werten. Dann ist

x :=1

N

N−1∑i=0

xi

das arithmetische Mittel des Signals x.

Abbildung 1.4 zeigt vier Beispielsignale und ihre jeweiligen arithmetischenMittel. Der Vergleich von Signal (a) mit Signal (b) illustriert hierbei die wesent-liche Aussagekraft des arithmetischen Mittels. Es beschreibt die Verschiebungdes Signals entlang der y-Achse (Amplitude). In der Elektrotechnik wird dasarithmetische Mittel auch DC-Offset, Gleichanteil, oder Gleichstrom- bzw.Gleichspannungsanteil genannt. GleichanteilIm gegebenen Beispiel ist das Signal (b) ge-genüber dem Signal (a) um etwa +4 Einheiten verschoben. Der Vergleichvon Signal (a) mit Signal (c) zeigt andererseits eine Schwäche dieser statis-tischen Maßzahl auf. Beide Signale haben in etwa das gleiche arithmetischeMittel, jedoch variieren die Abtastwerte von Signal (c) in weit größerem Maße

Page 17: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

18 KURSEINHEIT 1. GRUNDLAGEN DER SIGNALVERARBEITUNG

als die Werte von Signal (a). Diese Eigenschaft der Signale geht durch dieSummenbildung bei der Berechnung des arithmetischen Mittels verloren.

Eine Möglichkeit, die Stärke der Variation mit einer Maßzahl – einem soge-nannten Streuungsmaß – zu erfassen, ist die mittlere absolute Abweichung.Streuungsmaß Siewird berechnet, indem für jeden Abtastwert des Signals der absolute Abstandzum arithmetischen Mittel des Signals gebildet, anschließend aufsummiert undschließlich mit der Anzahl der Abtastwerte normiert wird:

Definition 1.4 (Mittlere absolute Abweichung).

Gegeben sei das Signal x = (x0, x1, . . . , xN−1) bestehend aus N Abtast-werten und es sei x das arithmetische Mittel dieses Signals. Dann ist

xAD

a :=1

N

N−1∑i=0

|xi − x|

die mittlere absolute Abweichung des Signals x.

aDas Kürzel AD ist der englischen Bezeichnung „absolute deviation“ entlehnt.

Ein Nachteil der mittleren absoluten Abweichung ist die Verwendung der Be-tragsfunktion. Diese erschwert eine analytische Behandlung, da sie nichtalternative

Streuungsmaßeüberall

differenzierbar ist. Zwei alternative Streuungsmaße, welche diese Problema-tik umgehen, sind die Varianz und die Standardabweichung. Sie verwendenanstelle der Betragsfunktion das Quadrat der Differenz von Abtastwert undarithmetischem Mittel des Signals:

Definition 1.5 (Varianz).

Gegeben sei das Signal x = (x0, x1, . . . , xN−1) bestehend aus N Abtast-werten und es sei x das arithmetische Mittel dieses Signals. Dann ist

σ2 :=1

N

N−1∑i=0

(xi − x)2

die Varianz des Signals x.

Definition 1.6 (Standardabweichung).

Gegeben sei das Signal x = (x0, x1, . . . , xN−1) bestehend aus N Abtast-werten und es sei x das arithmetische Mittel dieses Signals. Dann ist

σ =√σ2 :=

√√√√ 1

N

N−1∑i=0

(xi − x)2

die Standardabweichung des Signals x.

Page 18: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.1. SIGNALE UND IHRE ZUGRUNDE LIEGENDEN PROZESSE 19

Die Standardabweichung ist somit lediglich die Quadratwurzel der Varianz.Betrachtet man erneut Abbildung 1.4 und vergleicht die Signale (a) bis (c),so charakterisieren arithmetisches Mittel und die Standardabweichung dieeinzelnen Signale bereits recht aussagekräftig. Handelt es sich bei dem zu be-schreibenden Signal jedoch um ein sogenanntes nicht stationäres Signal, nicht stationäre

Signaleso

verlieren arithmetisches Mittel und Standardabweichung an Aussagekraft. EinBeispiel für ein derartiges, nicht stationäres Signal zeigt Abbildung 1.4d. Mit denstationären Signalen (a) bis (c) als Modellannahme, würde man sich das Signal(d) nur anhand seiner Werte für arithmetisches Mittel und Standardabweichungals stationäres Signal um einen Amplitudenwert von etwa 15 herum zentriertund mit einem relativ hohen Rauschanteil versehen vorstellen. Diese Vorstellungist in Anbetracht der grafischen Darstellung von Signal (d) in Abbildung 1.4offensichtlich inkorrekt. Das Beispiel zeigt, dass im Falle zweifelhafter, meistimplizit gemachter Grundannahmen – hier die Annahme es handele sich um ein

impliziteGrundannahmen

stationäres Signal – die Verwendung und Interpretation statistischer Maßzahlenzu falschen Schlussfolgerungen über die Charakteristik des untersuchten Signalsführen kann. Derartigen Grundannahmen bzw. Modellannahmen sollte grund-sätzlich eine hohe Aufmerksamkeit geschenkt werden, da nur in den seltenstenFällen die gemachten Schlussfolgerungen allgemeine Gültigkeit besitzen.

In diesem Zusammenhang besteht ein weiterer wichtiger Aspekt in der bewuss-ten Unterscheidung zwischen dem Signal und dem diesem Signal Signal vs. zugrunde

liegender Prozesszugrunde

liegenden Prozess. Ein Beispiel hierfür liefert ein klassisches Münzwurfexperi-ment. Ein Münzwurf ist ein binäres Ereignis. Er generiert entweder Kopf oderZahl, wobei die Wahrscheinlichkeit für jedes der beiden möglichen Ergebnissegenau 50% beträgt. Bildet man das Ergebnis Kopf auf den Wert 1 ab und dasErgebnis Zahl auf den Wert 0, so hat der Münzwurfprozess ein arithmetischesMittel von exakt 0,5 . Führt man jedoch ein konkretes Münzwurfexperimentdurch, z.B. über 1000 Würfe, und fasst die Ergebnisse der einzelnen Würfe alsSignal auf, so hat dieses Signal in der Regel ein leicht von 0,5 abweichendes arith-metisches Mittel. Während die Wahrscheinlichkeiten und das daraus abgeleitetearithmetische Mittel des zugrunde liegenden Münzwurfprozesses konstant sind,variieren die arithmetischen Mittel der durch Münzwurfexperimente zu Standegekommenen Signale bei jedem Durchlauf. Diese Abweichung vom theoretischerwarteten Mittelwert wird auch als Zufallsfehlerzufällige Abweichung oder Zufallsfehlerbezeichnet.

Abbildung 1.5a illustriert diesen Zufallsfehler und zeigt die Entwicklung desarithmetischen Mittels des Signals eines Münzwurfexperimentes11 (rote, durch-gezogene Linie) in Abhängigkeit der Anzahl der Würfe (Abtastwerte). Manerkennt, dass sich das arithmetische Mittel mit zunehmender Zahl der Würfestabilisiert, jedoch auch nach 1000 Würfen noch deutlich vom theoretisch erwar-teten Mittelwert abweicht. Auf den ersten Blick mag dieser Zufallsfehler nach1000 Würfen unintuitiv hoch erscheinen. Bei einem arithmetischen Mittel von0,48 nach 1000 Würfen ist es jedoch so, dass gerade einmal 20 Zahl -Ergebnisse(abgebildet auf 0) „zuviel“ stattgefunden haben und entsprechend 20 Kopf -

11Es handelt sich um ein theoretisches Münzwurfexperiment auf Basis von echten Zufalls-zahlen.

Page 19: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

20 KURSEINHEIT 1. GRUNDLAGEN DER SIGNALVERARBEITUNG

(a) (b)

Abbildung 1.5: Erläuterung der geschätzten Varianz. (a) Darstellung des arithmeti-schen Mittels eines Münzwurfexperimentes. Die schwarze, gestrichelte Linie zeigt daskonstante arithmetische Mittel von 0,5 des zugrunde liegenden Münzwurfprozesses. Dierote, durchgezogene Linie zeigt das arithmetische Mittel des Signals („Beobachtung“)bei zunehmender Anzahl von Münzwürfen. (b) Darstellung eines Münzwurfexperimentesmit 50 Würfen. Das arithmetische Mittel des Münzwurfexperimentes (0.44) ist als fettgezeichnete, schwarze Linie dargestellt. Das arithmetische Mittel des Münzwurfprozesses(0.5) ist durch eine dünne, blaue Linie angegeben.

Ergebnisse (abgebildet auf 1) „zuwenig“. Aus dieser Perspektive betrachteterscheinen die Werte durchaus plausibel12.

Das Auftreten von Zufallsfehlern in statistischen Maßzahlen hat insbesonderedann weitergehende Auswirkungen, wenn die betroffenen Maßzahlen ihrerseitswieder in die Berechnung weiterer Maßzahlen einfließen13. So wird beispielswei-seFehlerfort-

pflanzungdas potenziell fehlerbehaftete, arithmetische Mittel für die Berechnung der

Varianz verwendet. Welche Auswirkungen hat in diesem Fall die Verwendungeines fehlerbehafteten arithmetischen Mittels auf die Varianz? Um diese Fragezu untersuchen soll erneut das Beispiel des Münzwurfexperimentes verwendetwerden. Abbildung 1.5b zeigt das Ergebnis eines solchen Experimentes nach50 Würfen. Das aus diesen 50 Werten berechnete arithmetische Mittel (0.44)ist als fett gezeichnete, schwarze Linie dargestellt. Das „ideale“ arithmetischeMittel des zugrunde liegenden Münzwurfprozesses (0.5) ist als dünne, blaueLinie eingezeichnet. Da es sich um horizontale Linien handelt, vereinfacht sichdie übliche Geradengleichung von ax + b auf den konstanten Wert b, da beihorizontalen Geraden die Steigung a gleich 0 ist. Im Falle des berechnetenarithmetischen Mittels ist b = 0.44, im Falle des idealen arithmetischen Mittelsdes Münzwurfprozesses ist b = 0.5. Betrachtet man nun die oben beschrie-bene Berechnung der Varianz, so lässt sich erkennen, dass man die Varianzauch als durchschnittlichen Abstand der Werte eines Signals von der durchdas arithmetische Mittel beschriebenen horizontalen Geraden verstehen kann.Vernachlässigt man für einen Moment den Normierungsfaktor 1/N , so ergibt

12Ein weiteres Experiment mit 10.000 Würfen (nicht abgebildet) ergab ein arithmetischesMittel von 0,5015 – also in diesem Fall etwa nur 15 Kopf -Ergebnisse „zuviel“ bei 10.000Ereignissen insgesamt.

13Dieses Phänomen wird auch als Fehlerfortpflanzung bezeichnet

Page 20: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.1. SIGNALE UND IHRE ZUGRUNDE LIEGENDEN PROZESSE 21

Abbildung 1.6: Minimaler quadratischer Abstand. Die Kurve zeigt die Summe derquadratischen Abstände der einzelnen Werte des Münzwurfexperimentes zu verschiedenenhorizontalen Geraden mit Werten von b = 0 bis b = 1. Die Kurve nimmt ihr Minimum genaubei der Geraden an, die dem arithmetischen Mittel der Werte des Münzwurfexperimentesentspricht (b = 0.44).

sich für die Summe der quadratischen Abstände der Werte eines Signals zueiner beliebigen horizontalen Geraden:

N−1∑i=0

(xi − b)2

In Abbildung 1.6 wurde diese Summe nun für verschiedene Werte von b aus demIntervall [0, 1] und den 50 Werten xi aus dem Münzwurfexperiment ausgewertet.Es zeigt sich, dass die Summe der quadratischen Abstände – und damit auchdie Varianz – ihr Minimum genau beim berechneten arithmetischen Mittel(b = 0.44) der Werte xi hat! Andersherum betrachtet bedeutet dies, dass füralle anderen Werte von b die Summe – und damit die Varianz – einen höherenWert annimmt.

Zurück zur eingangs gestellten Frage: Welche Auswirkungen hat die Verwendungeines fehlerbehafteten arithmetischen Mittels (b = 0.44 anstelle von b = 0.5) aufdie Varianz? Aus dem in Abbildung 1.6 gezeigten Minimum lässt sich folgern,dass auch, wenn man das „ideale“ arithmetische Mittel des zugrundeliegendenProzeses nicht kennt, man sich sicher sein kann, dass die Varianz, die manmit dem berechneten arithmetischen Mittel errechnet hat, immer zu kleinist im Vergleich zu der Varianz, die sich mit dem „idealen“ arithmetischenMittel ergeben würde. Um diesen Effekt insbesondere bei kurzen Signalen zukompensieren, findet man häufig die folgenden Definitionen von Varianz undStandardabweichung:

Page 21: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

22 KURSEINHEIT 1. GRUNDLAGEN DER SIGNALVERARBEITUNG

Definition 1.7 (Schätzung der Varianz).

Gegeben sei das Signal x = (x0, x1, . . . , xN−1) bestehend aus N Abtast-werten und x sei das arithmetische Mittel dieses Signals. Dann ist

σ2 :=1

N − 1

N−1∑i=0

(xi − x)2

die geschätzte Varianz des dem Signal x zugrunde liegenden Prozesses.

Definition 1.8 (Schätzung der Standardabweichung).

Gegeben sei das Signal x = (x0, x1, . . . , xN−1) bestehend aus N Abtast-werten und x sei das arithmetische Mittel dieses Signals. Dann ist

σ =√σ2 :=

√√√√ 1

N − 1

N−1∑i=0

(xi − x)2

die geschätzte Standardabweichung des dem Signal x zugrunde lie-genden Prozesses.

Die Definitionen 1.7 und 1.8 unterscheiden sich von den Definitionen 1.5 und 1.6nur durch einen angepassten Normierungsfaktor

(1

N−1

), der insbesondereNormierungsfaktor dann

zum Tragen kommt, wenn das Signal nur wenige Abtastwerte (N) enthält. DieVerwendung dieser angepassten Formeln für Varianz und Standardabweichungsollten immer dann zum Einsatz kommen, wenn es darum geht, Varianz oderStandardabweichung des zugrunde liegenden Prozesses abzuschätzen.

Histogramm, Wahrscheinlichkeits- und Dichtefunktion

Einfache statistische Maßzahlen, wie das zuvor beschriebene arithmetischeMittel oder die Varianz, charakterisieren Signale häufig nur unzureichend. Einesehr verbreitete Methode, Signale genauer zu beschreiben, sind sogenannte

Histogramme Histogramme. Das Histogramm eines Signals beschreibt für jede mögliche Aus-prägung der Abtastwerte, wie häufig diese im Signal vorkommt. Die Ausprägungeines Abtastwertes bezeichnet ein Element des Wertebereiches der Abtastwerte.Handelt es sich beispielsweise um ein Signal, das mit einem 8-Bit Analog-Digital-Wandler erzeugt wurde, so gibt es 28 (= 256) verschiedene Ausprägungen, diedie Abtastwerte des Signals einnehmen können, z.B. aus dem Wertebereich{−128, . . . , 127} oder dem Wertebereich {0, . . . , 255}. Grundsätzlich könntesich der Wertebereich der Abtastwerte aber auch auf Elemente anderer Artbeziehen. Ist das „Signal“ beispielsweise ein Text, so würde der Wertebereichdie verschiedenen Buchstaben und Satzzeichen der jeweiligen Sprache umfassen.Das zugehörige Histogramm würde dementsprechend die HäufigkeitHäufigkeit der

Ausprägungender einzel-

nen Zeichen des Textes beschreiben14 (s. Abb. 1.8). Unabhängig von der Art der

14Derartige Histogramme finden beispielsweise in der Kryptographie Anwendung.

Page 22: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.1. SIGNALE UND IHRE ZUGRUNDE LIEGENDEN PROZESSE 23

Elemente muss jeder Wertebereich W jedoch endlich und abzählbar sein, um einHistogramm über W erstellen zu können. Daher kann immer eine Kodierungϕ = W → {0, . . . ,M − 1} mit M ∈ N definiert werden, die die Elementedes jeweiligen Wertebereiches W auf eine Teilmenge der natürlichen Zahlenabbildet. Dementsprechend kann o.B.d.A.15 ein Histogramm auf folgende Weisedefiniert werden:

Definition 1.9 (Histogramm).

Gegeben sei das Signal x = (x0, x1, . . . , xN−1) mit xi ∈ {0, . . . ,M − 1}bestehend aus N Abtastwerten. Dann ist

Hx =(Hx

0 , Hx1 , . . . , H

xM−1

)mit

Hxj =

N−1∑i=0

δ[j − xi], j = 0, . . . ,M − 1

und

δ[n] =

{1 wenn gilt n = 0,

0 wenn gilt n �= 0, n ∈ Z.

das Histogramm des Signals x.

Die Funktion δ[n] ist eine Variante des Kronecker-Deltas δij, die häufigin der Signalverarbeitung eingesetzt wird und über den ganzen Zahlendefiniert ista.

asiehe auch Abb. 1.20 und Def. 1.23

Abbildung 1.7a zeigt 100 Abtastwerte eines Signals mit Werten aus dem Wer-tebereich {0, . . . , 255}. Das zu diesem Signal gehörige Histogramm zeigt Ab-bildung 1.7b. Dem Histogramm kann entnommen werden, dass beispielsweiseder Abtastwert 51 genau einmal, der Wert 84 zweimal und der Wert 127 genaudreimal in dem Signal vorkommt. Neben dieser rein quantitativen Informationüber die einzelnen Ausprägungen der Abtastwerte, vermittelt die Form eines

Histogramms→ Verteilung

„Form“ einesHistogramms einen qualitativen, charakteristischen Eindruck von der Art, wiedie Abtastwerte des betrachteten Signals verteilt sind. Diese „Form“ des Histo-gramms wird auch als Verteilung bezeichnet. Da das zugrunde liegende Signaldes Histogramms in Abbildung 1.7b nur 100 Abtastwerte umfasst, ist der Anteilzufälliger Abweichungen relativ hoch und die Verteilung der Abtastwerte ist nurschemenhaft zu erkennen. Wie auch beim zuvor beschriebenen arithmetischenMittel verringert sich der relative Anteil der Zufallsfehler mit einer zunehmen-den Anzahl der Abtastwerte eines Signals. Das in Abbildung 1.7c dargestellteHistogramm eines Signals mit 100.000 Abtastwerten illustriert diesen Effekt.Die Verteilung der Abtastwerte tritt wesentlich deutlicher hervor und zeigt, dassin diesem Fall das zugrunde liegende NormalverteilungSignal einer sogenannten Normalverteilung

15o.B.d.A. → ohne Beschränkung der Allgemeinheit

Page 23: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

24 KURSEINHEIT 1. GRUNDLAGEN DER SIGNALVERARBEITUNG

(a)

(b)

(c)

Abbildung 1.7: Signal eines Zufallsprozesses und zugehörige Histogramme. (a) Dieersten 100 Abtastwerte eines Signals mit 100.000 Abtastwerten aus dem Wertebereich{0, . . . , 255}. (b) Histogramm des in (a) dargestellten Teilsignals. (c) Histogramm desvollständigen Signals mit 100.000 Abtastwerten.

Page 24: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.1. SIGNALE UND IHRE ZUGRUNDE LIEGENDEN PROZESSE 25

(a)

(b)

Abbildung 1.8: Histogramme von Texten. (a) Histogramme über zwei in ASCII kodierteTexte von Goethe und Shakespeare. (b) Differenz der in (a) dargestellten Histogramme.

folgt. Es existieren zahlreiche charakteristische Verteilungen dieser Art16, diein vielen Fällen Rückschlüsse auf die Prozesse erlauben, die den jeweiligenSignalen zugrunde liegen. So könnte es sich im Falle einer Normalverteilungum einen Zufallsprozess handeln17.

Neben dem Vergleich mit bekannten Wahrscheinlichkeitsverteilungen und derdamit verbundenen Ableitung von Eigenschaften bzgl. der zugrunde liegendenProzesse, können Histogramme auch für den direkten Vergleich mehrerer Signaleverwendet direkter

Signalvergleichwerden. Ein Beispiel hierfür zeigt Abbildung 1.8. Teilbild (a) stellt

die Histogramme zweier Texte – Hamlet von William Shakespeare und Faust IIvon Johann Wolfgang von Goethe – im direkten Vergleich dar18. Auf den erstenBlick erscheinen beide Histogramme recht ähnlich, mit jeweils drei dominantenBereichen a bis i, l bis o und r bis u. Bildet man jedoch die elementweiseDifferenz der beiden Histogramme, wie im Teilbild (b) dargestellt, so tretendie Unterschiede deutlich hervor. Die Unterschiede sind darauf zurückzuführen,dass der Text von Shakespeare in englischer Sprache und der Text von Goethein deutscher Sprache verfasst ist. Insbesondere die Elemente {a, c, e, n, o, t, y} er-

16Für eine Liste derartiger Verteilungen siehe z.B. den Artikel zur Wahrscheinlichkeitsver-teilung auf Wikipedia.

17In der Tat wurde das Signal durch die additive Überlagerung von vier Pseudozufallsfolgengeneriert.

18Die Darstellung ist beschränkt auf die Kleinbuchstaben kodiert im ASCII-Standard(American Standard Code for Information Interchange).

Page 25: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

26 KURSEINHEIT 1. GRUNDLAGEN DER SIGNALVERARBEITUNG

scheinen also geeignet, englische und deutsche Texte voneinander unterscheidenzu können. Eine derartige Analyse der Buchstabenhäufigkeit kann beispielsweisein der Kryptographie bei der Entschlüsselung sogenannter monoalphabetischerChiffren19 eingesetzt werden.

Ein praktischer Aspekt von Histogrammen besteht in ihrer Verwendung zurpraktischer Aspekt effizienten Berechnung von arithmetischem Mittel und Varianz des zugehörigen

Signals, insbesondere dann, wenn das Signal eine hohe Anzahl von Abtastwertenaufweist. Mithilfe des Histogramms lassen sich arithmetisches Mittel x undVarianz σ2 wie folgt berechnen:

effiziente

Berechnung von

arithmetischem

Mittel und Varianz

x =1

N

M−1∑i=0

iHi

σ2 =1

N

M−1∑i=0

(i− x)2 Hi

Durch die Verwendung des Histogramms wird vor allem die Berechnung derVarianz beschleunigt, da nur noch M -mal eine Quadrierung durchgeführtwerden muss statt N -mal (s. Def. 1.5). Bei einem Signal von beispielsweise100.000 Abtastwerten aus einem Wertebereich von {0, . . . , 255} müssen also ca.390-mal weniger Quadrierungen durchgeführt werden im Vergleich zu der inDefinition 1.5 beschriebenen klassischen Methode.

Wie bereits bei der Betrachtung von arithmetischem Mittel und Varianz istdie Unterscheidung zwischen Signal und zugrunde liegendem Prozess auch inBezug auf Histogramme von großer Bedeutung. Ein Histogramm beschreibtimmer nur die Verteilung von Abtastwerten eines diskreten, endlichen Signals.Betrachtet man erneut die beiden in Abbildung 1.8a dargestellten Histogrammeder Texte von Shakespeare und Goethe, so fällt auf, dass die abhängige Variableals absolute Häufigkeit beschrieben wird. Gerade wenn, wie in diesemabsolute Häufigkeit Beispiel,zwei Histogramme miteinander verglichen werden sollen, stellt diese Art derDarstellung ein Problem dar, da man den Histogrammen nicht ansehen kann,ob sie aus zwei Signalen mit einer gleichen Anzahl von Abtastwerten generiertwurden20. Wäre zum Beispiel der dem Goethe-Histogramm zugrunde liegendeTextabschnitt doppelt so lang wie der Textabschnitt, der für das Shakespeare-Histogramm verwendet wurde, so wären die einzelnen Histogrammwerte nichtdirekt miteinander vergleichbar. Die Werte des Goethe-Histogramms wärenim Schnitt doppelt so hoch wie die des Shakespeare-Histogramms und eineelementweise Differenz wie in Abbildung 1.8b dargestellt, würde zu vollkommenanderen und möglicherweise inkorrekten Schlussfolgerungen führen.

UmHistogramm-normalisierung

Histogramme unabhängig von der Länge der jeweils zugrunde liegendenSignale vergleichen zu können, müssen die Histogramme vor dem Vergleich nor-malisiert werden. Hierbei ist die im folgenden Merksatz formulierte Feststellunghilfreich:

19Ein Beispiel für eine monoalphabetische Chiffre ist eine einfache Permutation der Buch-staben über eine feste Verschiebung (a → b, b → c,. . . , z → a)

20In diesem Beispiel wurde dies natürlich sichergestellt.

Page 26: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.1. SIGNALE UND IHRE ZUGRUNDE LIEGENDEN PROZESSE 27

Merksatz 1.1 (Summe der Histogrammwerte).

Gegeben sei das Signal x = (x0, x1, . . . , xN−1) mit xi ∈ {0, . . . ,M − 1}bestehend aus N Abtastwerten und sei Hx =

(Hx

0 , Hx1 , . . . , H

xM−1

)das

Histogramm des Signals. Dann gilt

N =M−1∑j=0

Hxj ,

d. h. „die Summe der Histogrammwerte Hxj entspricht der Anzahl der

Abtastwerte N .“

Aus dieser Feststellung ergibt sich direkt die Definition eines normalisiertenHistogramms:

Definition 1.10 (Normalisiertes Histogramm).

Gegeben sei das Signal x = (x0, x1, . . . , xN−1) mit xi ∈ {0, . . . ,M − 1}bestehend aus N Abtastwerten. Dann ist

Hx =(Hx

0 , Hx1 , . . . , H

xM−1

)mit

Hxj =

1

N

N−1∑i=0

δ[j − xi], j = 0, . . . ,M − 1

und

δ[n] =

{1 wenn gilt n = 0,

0 wenn gilt n �= 0, n ∈ Z.

das normalisierte Histogramm des Signals x.

In einem auf diese Weise normalisierten Histogramm nehmen die einzelnen Histo-grammeinträge Hx

j Werte aus dem reellen Intervall [0, 1] an und die Summe derHistogrammwerte

Summe allerHistogrammeinträge ergibt genau 1 unabhängig von der Länge des zugrundeliegenden Signals. Dementsprechend können normalisierte Histogramme direktmiteinander verglichen werden. Darüber hinaus approximiert ein normalisiertesHistogramm Hx eines Signals x die Wahrscheinlichkeitsfunktion des Prozesses,der dem Signal zugrunde liegt. Approximation

der Wahrscheinlich-keitsfunktion

In diesem Zusammenhang wird der Prozessals diskrete Zufallsvariable modelliert, die genau M mögliche Ausprägungenbesitzt. Die Wahrscheinlichkeitsfunktion ordnet jeder dieser Ausprägungen eineWahrscheinlichkeit zu, mit der die Zufallsvariable die jeweilige Ausprägungannimmt:

Page 27: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

28 KURSEINHEIT 1. GRUNDLAGEN DER SIGNALVERARBEITUNG

Definition 1.11 (Wahrscheinlichkeitsfunktion).

Es sei X eine diskrete Zufallsvariable, die eine abzählbare Menge C ={h0, h1, . . .} an Ausprägungen besitzt. Jeder dieser Ausprägungen hj kanneine Wahrscheinlichkeit P (X=hj) = pj ∈ [0, 1] zugeordnet werden, mitder die Zufallsvariable X die Ausprägung hj annimmt.

Die Wahrscheinlichkeitsfunktion ist dann gegeben durch eine Funk-tion f : C → [0, 1] mit

f (h) = P (X=h) und∑h∈C

f (h) = 1.

Das Verhältnis von Wahrscheinlichkeitsfunktion und normalisiertem Histo-gramm entspricht dem zuvor beschriebenen Verhältnis von arithmetischem Mit-tel des Münzwurfprozesses und arithmetischem Mittel des konkreten Münzwur-fexperimentes. Genau wie das durch ein MünzwurfexperimentHistogramm vs.

Wahrscheinlich-keitsfunktion

bestimmte arith-metische Mittel enthält auch das normalisierte Histogramm Zufallsfehler, diees von der Wahrscheinlichkeitsfunktion des zugrunde liegenden Prozesses ab-weichen lassen. Die Größe des Zufallsfehlers ist auch in diesem Fall direkt vonder Anzahl N der Abtastwerte des Signals abhängig, über das das Histogrammgebildet wurde.

WährendDichtefunktion die Wahrscheinlichkeitsfunktion für eine diskrete Zufallsvariable defi-niert ist, ist die Wahrscheinlichkeitsdichtefunktion oder auch nur Dichtefunktiondas Analogon für eine kontinuierliche Zufallsvariable:

Definition 1.12 (Dichtefunktion).

Es sei X eine kontinuierliche, reellwertige Zufallsvariable.

Die Dichtefunktion der Zufallsvariablen X ist dann gegeben durch eineFunktion f : R → [0, 1] mit

P (a ≤ X ≤ b) =

∫ b

a

f (x) dx und∫

+∞

−∞

f (x) dx = 1.

Ein Beispiel für die Dichtefunktion f einer reellwertigen Zufallsvariablen X zeigtAbbildung 1.9. Man beachte die Auszeichnung der abhängigen Variablen alsWahrscheinlichkeitsdichte und nicht einfach nur als Wahrscheinlichkeit. Auf denersten Blick könnte man die dargestellteWahrscheinlich-

keitsdichte vs.Wahrscheinlichkeit

Funktion derart interpretieren, dassz.B. die Zufallsvariable den Wert 105 in etwa 1% aller Fälle21 annimmt. Dies istjedoch nicht der Fall. Ganz im Gegenteil: die Wahrscheinlichkeit dafür, dassdie Zufallsvariable exakt den Wert 105.000000 . . . annimmt ist null. Selbst inder kleinsten Umgebung um den Wert 105 herum gibt es bereits eine unendliche

21f (105) = 0.01

Page 28: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.1. SIGNALE UND IHRE ZUGRUNDE LIEGENDEN PROZESSE 29

Abbildung 1.9: Beispiel für eine Dichtefunktion. Die hier dargestellte Dichtefunktion isteine Normalverteilung mit einem arithmetischen Mittel von 127 und einer Standardabwei-chung von 32.

Anzahl an weiteren Werten, die eben nicht exakt den Wert 105 haben. Ausdieser Perspektive ist es einleuchtend, dass es „äußerst unwahrscheinlich“ genauauf den Wert 105 zu treffen. Aus diesem Grund ist es im Falle einer reellwertigenZufallsvariablen nicht sinnvoll, nach der Wahrscheinlichkeit für das Auftreteneines einzelnen Wertes zu fragen. Vielmehr stellt sich die Frage, wie hoch dieWahrscheinlichkeit ist, dass die Zufallsvariable einen Wert aus einem gegebenenIntervall annimmt. IntervallD.h., um die Wahrscheinlichkeit für das Auftreten einesWertes aus einem Intervall [a, b] zu berechnen, muss die Dichtefunktion f überdiesem Intervall integriert werden:∫ b

a

f (x) dx = P (a ≤ X ≤ b)

Das Integral über dem Intervall [a, b] kann mit∫ b

a

f (x) dx = F (b)− F (a)

berechnet werden, falls die zur Dichtefunktion f zugehörige kumulativeVerteilungsfunktion

kumulative Vertei-lungsfunktion F mit

F (c) = P (X ≤ c) =

∫ c

−∞

f (x) dx

bekannt ist.

Wie die oben beschriebene Wahrscheinlichkeitsfunktion kann auch die Dich-tefunktion einen Prozess beschreiben, der einem Signal zugrunde liegt. Im

endlicherWertebereich vs.kontinuierlichesIntervall

Gegensatz zu den bisher betrachteten Signalen entstammen die Abtastwertein diesem Fall jedoch keinem endlichen Wertebereich {0, . . . ,M − 1}, sondernstammen anstelle dessen aus einem kontinuierlichen Intervall [a, b]. Um fürein derartiges Signal ein Histogramm erstellen zu können, wird der Wertebe-reich [a, b] des Signals in M Teilintervalle partitioniert und alle Abtastwerte,deren Werte in ein einzelnes Teilintervall fallen, werden dem entsprechenden

Page 29: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

30 KURSEINHEIT 1. GRUNDLAGEN DER SIGNALVERARBEITUNG

HistogrammwertBinning zugeordnet. Im englischen wird dieser Vorgang als Binning22

bezeichnet:

Definition 1.13 (Intervall-Histogramm).

Gegeben sei das Signal x = (x0, x1, . . . , xN−1) mit xi ∈ [a, b) bestehend ausN Abtastwerten und sei a = t0 < t1 < . . . < tM = b eine Partitionierungdes Wertebereichs [a, b) in M Teilintervalle. Dann ist

Hx =(Hx

0 , Hx1 , . . . , H

xM−1

)mit

Hxj =

N−1∑i=0

Θ(xi − tj)−Θ(xi − tj+1), j = 0, . . . ,M − 1

und

Θ(n) =

{1 wenn gilt n ≥ 0,

0 wenn gilt n < 0, n ∈ R.

das Histogramm des Signals x über die Teilintervalle [ti, ti+1] ,i ∈ {0, . . . ,M − 1}.

Die Funktion Θ(n) wird als Heaviside-Funktion bezeichnet und ist nachdem britischen Mathematiker und Physiker Oliver Heaviside (1850 - 1925)benannt.

Das Histogramm kann analog zur Definition 1.10 normalisiert werden.

Die Verwendung eines Histogramms über Teilintervalle des Wertebereichs kannauch im Falle eines ganzzahligen, endlichen Wertebereichs von Nutzen sein.Ist die Zahl der Abtastwerte im Vergleich zur Größe des Wertebereiches sehrklein,Zusammenfassung

in Teilintervallekann es sinnvoll sein, den Wertebereich in Teilintervalle zusammenzu-

fassen. Würde zum Beispiel ein Signal von einem 16-Bit23 Analog-Digital-Wandler aus 10.000 Abtastwerten bestehen, so wäre das resultierende Histo-gramm nur spärlich befüllt (ähnlich dem Histogramm in Abbildung 1.7b). Durchdie Zusammenfassung der 216 möglichen Ausprägungen auf z.B. 28 Intervalle(0 < 256 < 512 < . . . < 65.536) würde sich die durchschnittliche Anzahlder Abtastwerte, die einem Histogrammelement zugeordnet werden, um denFaktor 256 erhöhen und somit die Auflösung entlang der vertikalen Achse desHistogramms – zu Lasten der horizontalen Auflösung – deutlich verbessern.

Im vorhergehenden Abschnitt haben Sie die grundlegenden Beziehungen zwi-schen Signalen und den ihnen zugrunde liegenden Prozessen kennengelernt.Darüber hinaus wurden die wesentlichen Aspekte der statistischen Beschrei-bung von Signalen und der Approximation statistischer Eigenschaften der

22dt. Klasseneinteilung23In diesem Fall könnten die Abtastwerte 216 = 65.536 verschiedene Werte annehmen.

Page 30: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.2. ANALOG-DIGITAL-WANDLUNG 31

zugehörigen Prozesse erläutert. Hierbei wurden insbesondere die Erstellungund wesentliche Eigenschaften von Histogrammen betrachtet, da diese in vielenAlgorithmen und Verfahren, z.B. dem in Kurseinheit 3 beschriebenen automa-tischen Histogrammausgleich, der Mensch-Computer-Interaktion Verwendungfinden.

1.2 Analog-Digital-Wandlung

Lernziele:Der folgende Abschnitt wird Ihnen die wichtigsten Schritte undElemente im Kontext der Analog-Digital-Wandlung vorstellen underläutern. Der zugrunde liegende mathematische Hintergrund wirdan dieser Stelle bewußt noch nicht behandelt und auf einen späterenAbschnitt verschoben. Ziel dieses Abschnittes ist die Vermittlungeines prinzipiellen Verständnisses des Prozesses der Analog-Digital-Wandlung.

Wie bereits in den bisherigen Beispielen angedeutet, haben die Signale, dieBeobachtungnatürlicherProzesse mittelsSensoren

untersucht und weiterverarbeitet werden sollen, häufig ihren Ursprung in derBeobachtung eines natürlichen Prozesses mittels geeigneter Sensoren. Diesewandeln physikalische Größen, z.B. die Lichtintensität oder die Temperatur, inelektrisch messbare Größen um. Im Wesentlichen können hierbei drei Artender Repräsentation von Messwerten unterschieden werden:

• die Repräsentation von Messwerten über korrespondierende elektrischeSpannungen,

• die Repräsentation von Messwerten über korrespondierende elektrischeStröme und

• die Repräsentation von Messwerten über eine korrespondierende elektri-sche Widerstandsveränderung.

Üblicherweise werden im Falle der Repräsentation der Messwerte über StrömeOhmsches Gesetzoder der Repräsentation über eine Widerstandsveränderung die Ausgaben des

jeweiligen Sensors nachträglich in eine Repräsentation über die elektrische Span-nung umgewandelt. Dies geschieht unter Zuhilfenahme des Ohmschen Gesetzes,welches den Zusammenhang von Spannungsabfall, Strom und Widerstandbeschreibt:

Page 31: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

32 KURSEINHEIT 1. GRUNDLAGEN DER SIGNALVERARBEITUNG

Definition 1.14 (Ohmsches Gesetz).

Bezeichne U den Spannungsabfall in Volt, I die Stromstärke in Ampereund R einen ohmschen Widerstanda.

Dann gilt der als Ohmsches Gesetz bezeichnete Zusammenhang:

U = R · IaEin ohmscher Widerstand ist ein idealisierter elektrischer Widerstand, dessen

Widerstandswert unabhängig von der jeweiligen Spannung, dem jeweiligen Strom undder jeweiligen Frequenz ist. Die Frequenz bezieht sich hierbei auf elektrische Signalederen Spannung periodisch zwischen zwei Extremwerten wechselt. Die Frequenzbeschreibt in diesem Zusammenhang die Anzahl der Perioden pro Sekunde, die dieSpannung durchläuft. Sie hat die Einheit Hertz.

Für die weitere Betrachtung der Analog-Digital-Wandlung reicht es daher aus,nurRepräsentation von

Messwerten mittelsSpannungen

den Fall der Repräsentation von Messwerten über korrespondierende Span-nungen zu berücksichtigen. Als Beispiel soll das in Abbildung 1.10a dargestellteAnalogsignal eines fiktiven Sensors dienen. Der Ausgangsspannungsbereichdes Sensors soll von 0Volt bis 10.23Volt gehen und von einem 10-Bit Analog-Digital-Wandler (ADC) auf einen Wertebereich von 0 bis 1023 abgebildetwerden. Wie bereits eingangs erwähnt, wird bei der Analog-Digital-Wandlungeines kontinuierlichen Signals sowohl die unabhängige als auch die abhängigeVariable diskretisiert. Die Diskretisierung von unabhängiger und abhängigerVariable verläuft in einem sequenziellen Prozess und findet nicht gleichzeitigstatt.

AbtastungIm Rahmen der sogenannten Abtastung wird zunächst die unabhängigeunabhängige

VariableVa-

riable – in diesem Beispiel die Zeit – diskretisiert. Zu diesem Zweck wird dasanaloge Signal einem sogenannten Sample-And-Hold -Schaltkreis zugeführt, derin regelmäßigen Abständen, festgelegt über die Abtastrate, den jeweils aktuellen,analogen Signalwert „einfriert“ (s. Abb. 1.10b). Die Veränderungen des analo-gen Eingangssignals während dieses Sample-And-Hold -Schrittes gehen hierbeiverloren. Je geringer die Abtastrate ist, desto größer ist dementsprechend derpotenzielle24 Diskretisierungsfehler. Das nach der Abtastung entstandene Signalwird auch als zeitdiskret bezeichnet. Die einzelnen Werte des Signals sind hierbeiweiterhin kontinuierlich.

24Der real auftretende Diskretisierungsfehler ist vom jeweils konkreten Signal abhän-gig. So würde beispielsweise ein konstantes Signal unabhängig von der Abtastrate keinenDiskretisierungsfehler aufweisen.

Page 32: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.2. ANALOG-DIGITAL-WANDLUNG 33

(a)

(b) (c)

(d)

Abbildung 1.10: Schritte der Analog-Digital-Wandlung des Ausgangssignals eines Sensors.(a) Das analoge Spannungssignal am Ausgang des Sensors. (b) Das weiterhin analogeSpannungssignal am Ausgang des Sample-And-Hold-Schaltkreises (Diskretisierung derZeit → Abtastung). (c) Das digitale Signal am Ausgang des Analog-Digital-Wandlers(Diskretisierung der Spannungswerte → Quantisierung). (d) Die Differenz der Signale (b)und (c) entspricht dem Quantisierungsfehler. Die Angabe des Fehlers erfolgt normiert alsAnteil bzgl. des niederwertigsten Bits (siehe Text zur näheren Erläuterung).

Page 33: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

34 KURSEINHEIT 1. GRUNDLAGEN DER SIGNALVERARBEITUNG

QuantisierungDie Ausgabe des Sample-And-Hold -Schaltkreises wird anschließend demabhängige

Variableei-

gentlichen Analog-Digital-Wandler (ADC) zugeführt, dessen Aufgabe in derDiskretisierung der abhängigen Variable – in diesem Beispiel der Spannung – be-steht. Aufgrund der vorgeschalteten Abtastung steht dem ADC nun ein jeweilsfür einen Zeitschritt stabiles, weiterhin analoges Eingangssignal zur Verfügung.Die Umwandlung dieses analogen Eingangssignals auf einen digitalen Wert wirdals Quantisierung bezeichnet. Die Anzahl der Quantisierungsstufen, also die An-zahl der möglichen Ausprägungen des digitalen Wertes, wird üblicherweise überdie Bit-Breite des ADC angegeben. In diesem BeispielQuantisierungs-

stufenbeträgt die Bit-Breite

des ADC 10-Bit und ermöglicht somit 210 = 1024 Quantisierungsstufen.

QuantisierungsfehlerAbbildung 1.10c zeigt das digitalisierte Signal am Ausgang des ADC. Bildetman die Differenz dieses Signals mit dem Signal am Ausgang des Sample-And-Hold -Schaltkreises25 (Abbildung 1.10b), so erhält man die sogenanntenQuantisierungsfehler, die die Abweichung der digitalenAbweichung

digitaler vs.analoger Werte

Abtastwerte von ihrenkorrespondierenden analogen Werten beschreiben. Abbildung 1.10d zeigt dieQuantisierungsfehler für das hier verwendete Beispiel. Die Angabe der Fehlererfolgt normiert als Anteil bezüglich des sogenannten „niederwertigsten Bits“(LSB26). Wie dieser normierte Fehlerwert zu interpretieren ist, wird durch eineinfaches Beispiel klar. Angenommen der analoge Eingangsspannungsbereicheines ADC liegt zwischen 0Volt und 5.115Volt und der digitale Wertebereichdes Ausgangs ist {0, . . . , 1023} gemäß einer Bit-Breite von 10-Bit. Mathema-tisch27 besteht die Umwandlung eines Eingangswertes auf den entsprechendenAusgangswert nur aus einer Multiplikation mit einem passend gewählten Kon-vertierungsfaktor (hier 200). Ein Eingangswert von beispielsweise 2.0105Voltwürde in diesem Fall einen Ausgangswert von 402.1 erfordern. Da der Wer-tebereich des Ausgangs jedoch ganzzahlig ist, muss der „ideale“ Wert 402.1auf einen ganzzahligen „realen“ Wert von 402 gerundet werden. Der „fehlende“Rest von −0.1 („realer“ Wert − „idealer“ Wert) ist der oben beschriebeneQuantisierungsfehler bezüglich des niederwertigsten Bits, was jetzt noch nähererläutert wird.

Betrachtet man die Quantisierungsfehler in Abbildung 1.10d genauer, so fällt auf,dass die Quantisierungsfehler wie ein zufälliges Rauschen mit einer Amplitudevon ±1

2LSB erscheinen. Durch dieRauschen

mit ±1

2LSB

Quantisierung des analogen Signals (b)wird diesem Signal also ein Rauschen hinzugefügt, dessen Amplitude von derverwendeten Bit-Breite abhängt, also von der Anzahl der für die Quantisierungzur Verfügung stehenden Bits. Im obigen Beispiel (Eingang: 0 − 10.23Volt,Ausgang: 0..1023) beschreibt das LSB einen Bereich von 10.23/1023 = 0.01Volt.Das Rauschen, das durch die Quantisierung entsteht, hat also dementsprechendeine Amplitude von ±0.005Volt.

25unter Zuhilfenahme einer geeigneten Skalierung26LSB = least significant bit27In einem konkreten ADC findet die Konvertierung natürlich auf eine andere Weise statt.

Page 34: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.2. ANALOG-DIGITAL-WANDLUNG 35

Merksatz 1.2 (Rauschen durch Quantisierung).

Die Quantisierung eines analogen Signals fügt dem ursprünglichen Signalein Rauschen mit Amplitude ±1

2LSB hinzu.

„Je geringer die Bit-Breite des eingesetzten Analog-Digital-Wandlers,desto größer ist das im Zuge der Quantisierung hinzugefügte Rauschen.“

Ist die Amplitude des „natürlichen“ Rauschens im analogen Signal bekannt,so kann die Bit-Breite der Quantisierung derart gewählt werden, dass daszusätzliche Rauschen aufgrund der Quantisierung im Verhältnis zum bereitsim Signal vorhandenen Rauschen klein ist und hierdurch in diesem „untergeht“.

Da üblicherweise die Bit-Breite der Quantisierung durch die verfügbare Hard-ware Anpassung des

Eingangs-spannungsbereichs

auf wenige Auswahlmöglichkeiten beschränkt ist28, muss ggf. der Ein-gangsspannungsbereich durch Verschiebung und Skalierung ebenfalls angepasstwerden, um eine genauere Quantisierung der Eingangsdaten zu erreichen. An-genommen man habe einen 10-Bit Analog-Digital-Wandler (ADC), der einenEingangsspannungsbereich von 0 Volt bis 10.23 Volt besitzt und einen Tempera-tursensor, der den Temperaturbereich von 0℃ bis 100 ℃ auf den Spannungsbe-reich von 0 Volt bis 10 Volt abbildet. In dieser Kombination wird demnach dieTemperatur vom ADC in 0.1℃ Schritten ausgegeben. Ist man jedoch nur anMessungen aus einem Bereich von z.B. 20 ℃ bis 40 ℃ interessiert, so kann mandurch eine geeignete elektronische Schaltung den Ausgangsspannungsbereichdes Temperatursensors durch Verschiebung und Skalierung auf -10Volt bis40Volt verändern bevor dieser vom ADC – der weiterhin nur Werte zwischen0Volt und 10.23Volt erfasst – umgewandelt wird. Hierdurch Erhöhung der

Auflösungkönnen zwar

nur noch Werte von 20℃ bis 40 ℃ erfasst werden, dies jedoch nun mit einerAuflösung von 0.02℃, also mit einer fünf mal so großen Genauigkeit.

AbtasttheoremIm Gegensatz zur Frage der Bit-Breite der Quantisierung, ist die Festle-

gung einer „ausreichenden“29 Abtastrate (auch Abtastfrequenz genannt) nichtallgemeingültig möglich. Beschränkt man sich jedoch auf die Klasse der kon-tinuierlichen und bandbeschränkten30 Signale, so kann gezeigt werden, dassgenau dann eine fehlerfreie Rekonstruktion des Ausgangssignals möglich ist,wenn die höchste Abtastfrequenzim Signal auftretende Frequenz kleiner ist als die Hälfte derAbtastfrequenz.

Diese als Abtasttheorem bekannte Aussage wurde in der ersten Hälfte des 20.Jahrhunderts von mehreren Forschern unabhängig voneinander formuliert. ImWesten wurde das Abtasttheorem 1948 von Claude Shannon formuliert, dersich auf Arbeiten von Harry Nyquist und Edmund Taylor Whittaker stützte. Im

28die meisten AD-Wandler haben 8-, 10-, 12- oder 16-Bit29Eine ausreichende Abtastrate kann dann als gegeben angenommen werden, wenn aus

dem digitalisierten Signal das ursprüngliche Signal fehlerfrei rekonstruiert werden kann.30bandbeschränkt bedeutet, dass in einem Signal nur Frequenzen aus einem bestimmten,

endlichen Bereich (dem Frequenzband) vorhanden sind.

Page 35: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

36 KURSEINHEIT 1. GRUNDLAGEN DER SIGNALVERARBEITUNG

russischen Sprachraum wurde das Abtasttheorem bereits 1933 von WladimirAlexandrowitsch Kotelnikow eingeführt.

An dieser Stelle soll vorerst nur der Hinweis auf die Existenz des Abtasttheo-rems gegeben werden. In der nächsten Kurseinheit, die sich ausführlich mit derFourier-Transformation und der Repräsentation von Signalen im Frequenzbe-reich befassen wird, wird die vom Abtasttheorem beschriebene Abhängigkeitvon Abtastfrequenz und Bandbreite des Signals deutlich werden.

Der vorhergehende Abschnitt hat Ihnen kurz und knapp die wichtigsten Schritteund Elemente der Analog-Digital-Wandlung nähergebracht. Ihnen sollte derProzess vom analogen Eingangssignal über die Abtastung und Quantisierunghin zum digitalen Ausgangssignal klar sein, und Sie sollten erläutern können,an welchen Stellen welche Stör- und Fehlerquellen innerhalb dieses Prozessesauftreten können (z.B. Quantisierungsfehler).

1.3 Lineare Systeme

Lernziele:Das folgende Unterkapitel wird Ihnen die wesentlichen Eigenschaf-ten linearer Systeme und die zentralen Ideen und Techniken derAnalyse dieser Systeme erläutern. Das Konzept der Linearität isteine der wichtigsten theoretischen Grundlagen für eine große Zahlder existierenden Methoden zur Signalverarbeitung. Sowohl das an-schließende Unterkapitel über die „Diskrete Faltung“ (1.4), als auchdie folgende Kurseinheit, die sich intensiv mit der „Fourier-Analyse“auseinandersetzt, basieren auf der im Folgenden beschriebenentheoretischen Basis.

Die bisherigen Abschnitte dieser Kurseinheit haben sich einzig auf Signale(s. Def. 1.2) und Möglichkeiten ihrer Charakterisierung, z.B. durch Histogramme,konzentriert. In diesem Abschnitt sollen nun Systeme betrachtet werden. Esfolgt die Definition des Begriffs System, wie er im weiteren Verlauf dieses Kursverwendet wird.

Definition 1.15 (System).

Als System kann jedweder Prozess bezeichnet werden, der in Reaktionauf ein Eingangssignal ein Ausgangssignal erzeugt.

Abbildung 1.11 zeigt eine schematische Darstellung eines derartigen Systems.Die in der Abbildung dargestellten eckigen Parameterklammern des Eingangs-signals x und des Ausgangssignals y sollen andeuten, dass es sich bei beiden

Page 36: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.3. LINEARE SYSTEME 37

Abbildung 1.11: Schematische Darstellung eines Systems mit Eingangssignal x[n] undAusgangssignal y[n].

Signalen um diskrete Signale handelt und dementsprechend insgesamt um eindiskretes System. Für die Darstellung von kontinuierlichen Signalen werden imweiteren Verlauf runde Parameterklammern verwendet (→ x(t) kontinuierlichvs. x[n] diskret). Darüber hinaus werden im Folgenden die Eingangssignaleeines Systems mit x und die Ausgangssignale eines Systems mit y bezeichnet.

Die Untersuchung von Systemen ist über ein weites Spektrum praktischerAnwendungsfälle motivierbar, sei es die Entstörung sowohl drahtgebundenerals praktische

Anwendungsfälleauch drahtloser Kommunikationskanäle (z.B. DSL31-Leitungen, Mobilfunk,

Satellitennavigation etc.), Teile des Bereichs der Bildverarbeitung (z.B. nach-trägliches Hinzufügen von Bildschärfe) oder auch der Equalizer an einer Stereo-anlage – bei all diesen Prozessen handelt es sich um Systeme die Eingangssignaleauf eine spezifische Art und Weise verändern und entsprechend modifizierteAusgangssignale erzeugen. Hierbei muss es sich bei dem jeweils untersuchtenSystem nicht zwingend um einen technischen Prozess handeln. Auch die Un-tersuchung natürlicher Phänomene über natürliche

Phänomenedas Aussenden und Empfangen eines

Testsignals fallen unter die Definition 1.15. Ein Beispiel hierfür sind seismischeUntersuchungen im Rahmen der Geologie, bei denen Stoßwellen in den Bodeneingebracht werden und die Reflektion dieser Wellen mittels Geophone wiederaufgenommen werden. Das zu untersuchende System ist in diesem Fall derjeweils vorherrschende, geologische Aufbau.

Trotz dieser Vielfalt an verschiedenen Systemen lässt sich der überwiegendeTeil dieser Systeme überraschenderweise einer einzelnen Klasse – den linearenSystemen – zuordnen:

31Das Kürzel DSL steht für den Ausdruck Digital Subscriber Line, engl. für Digitaler

Teilnehmeranschluss

Page 37: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

38 KURSEINHEIT 1. GRUNDLAGEN DER SIGNALVERARBEITUNG

Definition 1.16 (Lineares System).

Ein System S wird als lineares System bezeichnet, wenn es die folgendenzwei Bedingungen erfüllt:

• S ist homogen:

Aus x[n] → S → y[n]

folgt k · x[n] → S → k · y[n] .

• S ist additiv:

Aus x1[n] → S → y1[n]

und x2[n] → S → y2[n]

folgt x1[n] + x2[n] → S → y1[n] + y2[n] .

Die Bedingung der Homogenität besagt, dass eine Skalierung der Amplitudedes Eingangssignals x[n] mit einem konstanten Wert k zu einer Skalierung derAmplitude des Ausgangssignals y[n] um den gleichen Faktor führt.

Die Bedingung der Additivität besagt, dass es keinen Unterschied macht, obman zwei Signale x1[n] und x2[n] separat durch ein System schickt und dieAusgangssignale anschließend addiert, oder ob man die zwei Signale x1[n] undx2[n] zuerst addiert und erst dann die Summe der Signale durch das Systemverarbeiten lässt. In beidenkeine gegenseitige

BeeinflussungFällen erhält man das gleiche Ausgangssignal.

Anders ausgedrückt: Die Summe mehrerer Signale durchläuft ein linearesSystem ohne dass sich die einzelnen Signale dabei beeinflussen.

Neben diesen zwei Bedingungen gibt es noch eine dritte Eigenschaft, die beifast allen linearen Systemen anzutreffen ist. Es handelt sich hierbei um diesogenannte Verschiebungsinvarianz :

Definition 1.17 (Verschiebungsinvarianz).

Ein System S heißt verschiebungsinvariant, wenn gilt:

Aus x[n] → S → y[n]

folgt x[n+ s] → S → y[n+ s] .

Die Eigenschaft der Verschiebungsinvarianz32 besagt, dass das System für einbestimmtes Eingabemuster immer das gleiche Ausgabemusterzeitunabhängig erzeugt, unab-hängig davon, wann das Eingabemuster eingegeben wurde bzw. welche anderen

32Manchmal wird die Verschiebungsinvarianz auch als Zeitinvarianz bezeichnet.

Page 38: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.3. LINEARE SYSTEME 39

Abbildung 1.12: Schematische Darstellung eines zusammengesetzten, linearen Systems.

Muster zuvor eingegeben wurden. Häufig wird mit dieser Eigenschaft auchein Idealzustand beschrieben, der von einem realen System nur approximiertwird. So könnte das System z.B. ein Verstärker sein, der die Amplitude desEingangssignals im Idealfall verdoppeln soll, jedoch aufgrund seiner Bautei-le eine leichte Temperaturabhängigkeit aufweist und bei Temperaturen um0 ℃ einen realen Verstärkungsfaktor von 1.98 und bei Temperaturen um 50℃einen realen Verstärkungsfaktor von 2.03 hat. Bei aufwendig gestalteten Sys-temen sind derartige Effekte meist bekannt und werden durch entsprechendeAusgleichsmechanismen korrigiert. Darüber hinaus werden die linearen Eigen-schaften eines realen Systems meist nur über einem Arbeitsbereichbestimmten Arbeitsbereichgarantiert. Außerhalb dieses Arbeitsbereiches kann sich das System dann durch-aus nicht-linear verhalten. Ein klassisches Beispiel für ein System mit einemeingeschränkten, linearen Arbeitsbereich ist der Transistor.

Aus der Linearität eines Systems lassen sich noch weitere grundsätzliche Eigen-schaften ableiten. So sind lineare Systeme kommutativ, d.h. es gilt:

Kommutativitätaus x[n] → A → B → y[n]

folgt x[n] → B → A → y[n]

Bei einer sogenannten Kaskade33 von linearen Systemen, spielt es demnachkeine Rolle, in welcher Reihenfolge ein KaskadeEingangssignal die Systeme durchläuft.Trotz dieser Eigenschaft kann es aufgrund der bereits oben erwähnten nicht-idealen Eigenschaften realer Systeme nötig sein, die Reihenfolge der Systemezu optimieren, um die Einflüsse dieser nicht-idealen Eigenschaften auf dasGesamtsystem zu minimieren.

Über die einfache Hintereinanderschaltung von Systemen hinaus, können Sig-nale zusammengesetzte

Systemeinnerhalb eines zusammengesetzten Systems auch addiert werden, ohne

das die Eigenschaft der Linearität dabei verloren geht. Ein Beispiel für einsolches System zeigt Abbildung 1.12. Das dargestellte Gesamtsystem hat meh-rere Eingänge und besteht intern nur aus linearen Systemen und der Addition

33Hintereinanderschaltung

Page 39: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

40 KURSEINHEIT 1. GRUNDLAGEN DER SIGNALVERARBEITUNG

Abbildung 1.13: Schematische Darstellung der Synthese und Dekomposition eines Signalsaus drei Ausgangssignalen.

von Signalen. Damit ist das Gesamtsystem ebenfalls linear. Würde anstelle derAddition auch eine Multiplikation von Signalen vorkommen, so würde das Ge-samtsystem seine Linearität verlieren. Man beachte, dass diese Aussage für dieMultiplikation mit einer Konstanten nicht gilt (s. Bedingung der Homogenität).

1.3.1 Superpositionsprinzip

Ausgehend von dem in Abbildung 1.12 gezeigten linearen System stellt sich dieFrage, wie in einem komplexen linearen System Signale miteinanderKombination

linearer Systemekombiniert

werden können, so dass das System seine linearen Eigenschaften behält. DieAntwort hierfür lässt sich direkt aus den zwei Bedingungen (Homogenität undAdditivität) für lineare Systeme ableiten:

Merksatz 1.3 (Kombination von Signalen).

Innerhalb eines linearen Systems können Signale nur durch Skalierunga

und Addition miteinander kombiniert werden.

amit einem konstanten Wert

Jede andere Art der Kombination von Signalen führt zum Verlust der Linea-rität. Eine Kombination von Signalen auf diese Weise wird auch als Synthesebezeichnet. Der umgekehrte Prozess, die Zerlegung eines Signals in mehrere

Page 40: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.3. LINEARE SYSTEME 41

Synthese &Dekomposition

additive Komponenten, wird als Dekomposition bezeichnet. Abbildung 1.13stellt diesen Zusammenhang noch einmal schematisch dar.

Der Prozess der Dekomposition ist im Gegensatz zur Synthese nicht eindeutigund dementsprechend im Allgemeinen schwieriger zu handhaben. Während dieSumme (Synthese) einiger Zahlen, z.B. 11, 13 und 17, immer – unabhängig vonder mehrere

Möglichkeiten derDekomposition

Reihenfolge der Operationen – ein Ergebnis (11+13+17 = 41) hervorbringt,hat die Dekomposition einer Zahl in additive Komponenten eine sehr hohe Zahlmöglicher Ergebnisse (z.B. 41 = 40 + 1, 41 = 20 + 10 + 11 etc.).

Der oben beschriebene Prozess der Synthese ist auch als Superpositionsprinzipbekannt und fasst die beiden Bedingungen für lineare Systeme in eine Bedingungzusammen:

Definition 1.18 (Superpositionsprinzip).

Für ein lineares System S gilt das Superpositionsprinzip:

Aus x1[n] → S → y1[n]

und x2[n] → S → y2[n]

folgt c1 · x1[n] + c2 · x2[n] → S → c1 · y1[n] + c2 · y2[n] .mit c1, c2 zwei beliebigen Konstanten.

Zusammen mit dem Prozess der Dekomposition ist das Superpositionsprin-zip zentraler Aspektder zentrale Aspekt für das Verständnis der Analyse von Signalen undSystemen. Angenommen es soll die Veränderung eines komplexen Signalsx[n] durch ein System S untersucht werden. Das Superpositionsprinzip er-laubt es nun (s.Abb. 1.14), das Eingangssignal x[n] in eine Menge einfacherKomponenten {x0[n] , x1[n] , . . . , xM−1[n]} aufzuteilen (Dekomposition), die ein-zelnen Komponenten vom System S in Komponenten des Ausgangssignals{y0[n] , y1[n] , . . . , yM−1[n]} überführen zu lassen, und schließlich durch Addi-tion der Komponenten yi [n] das endgültige Ausgangssignal y[n] zu erzeugen(Synthese).

Das Superpositionsprinzip garantiert in diesem Fall, dass das auf diese Weiseerzeugte Ausgangssignal y[n] identisch mit dem Ausgangssignal ist, das beider direkten Verarbeitung des Eingangssignals x[n] durch das System S ent-standen wäre. Dank der Aufteilung des komplexen Analyse mittels

Zerlegung ineinfache Signale

Eingangssignals in einfacheKomponenten reicht es also aus, zu wissen, wie das System diese einfachenKomponenten verändert, um die Veränderung des komplexen Signals durch dasSystem bestimmen und analysieren zu können.

Page 41: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

42 KURSEINHEIT 1. GRUNDLAGEN DER SIGNALVERARBEITUNG

Abbildung 1.14: Superpositionsprinzip. Verwendung des Superpositionsprinzips für dieAnalyse komplexer Signale und Systeme.

1.3.2 Dekomposition von Signalen

Wie bereits im vorhergehenden Abschnitt erwähnt ist der Prozess der Dekom-position im Gegensatz zur Synthese nicht eindeutig. Für ein gegebenes Signalx[n] existieren eine Vielzahl möglicher Dekompositionen bzw. Zerlegungen. ImFolgenden sollen die wichtigsten und häufigsten ZerlegungenVielzahl möglicher

Zerlegungenkurz vorgestellt

werden.

Impulszerlegung

Die Impulszerlegung (s. Abb. 1.15) ist eine der einfachsten, aber auch eine derwichtigsten Dekompositionen:

Definition 1.19 (Impulszerlegung).

Es sei x[n] ein Signal der Länge N . Dann ist die Impulszerlegung

DIMP(x) definiert als:

DIMP(x) = {x0, x1, . . . , xN−1} ,mit

xi[n] = δ[n− i] · x[i] , i ∈ {0, . . . , N − 1}und δ[n] dem Kronecker-Delta (s. Def. 1.9).

Page 42: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.3. LINEARE SYSTEME 43

Abbildung 1.15: Impulszerlegung. Schematische Darstellung der Impulszerlegung einesSignals x[n] der Länge N in N Signalkomponenten. Jede Komponente enthält genaueinen Wert des Ausgangssignals x. Alle anderen Werte sind null.

Ein Eingangssignal x[n] der Länge N wird durch die Impulszerlegung in NSignalkomponenten xi[n] aufgeteilt, wobei Signal-

komponentenjede Komponente xi nur an Position

i den Abtastwert des Eingangssignals enthält und an allen anderen Positio-nen den Wert null hat. Ein Signal, das nur an einer Stelle einen von nullverschiedenen Wert besitzt, wird auch als ImpulsImpuls bezeichnet – daher der Namedieser Zerlegung. Durch die isolierte Betrachtung der einzelnen Abtastwerte desEingangssignals, kann die Reaktion eines Systems auf ein Eingangssignal alleinedadurch untersucht und bestimmt werden, wenn die Reaktion des Systemsauf einen Impuls bekannt ist. Diese Vorgehensweise findet sich auch bei derMethode der Faltung wieder, die in Abschnitt 1.4 näher erläutert wird.

Stufenzerlegung

Die Stufenzerlegung (s. Abb. 1.16) ist der Impulszerlegung sehr ähnlich. Anstelleder direkten Abtastwerte des Eingangssignals liegen der Veränderungen der

AbtastwerteStufenzerlegung jedoch

die Veränderungen der Abtastwerte des Eingangssignals zugrunde:

Definition 1.20 (Stufenzerlegung).

Es sei x[n] ein Signal der Länge N . Dann ist die Stufenzerlegung

DSTP(x) definiert als:

DSTP(x) = {x0, x1, . . . , xN−1} ,

mit

xi [n] =

{x[0] wenn i = 0,

Θ(n− i) · (x[i]− x[i− 1]) wenn i ∈ {1, . . . , N − 1} .

und Θ(n) der Heaviside-Funktion (s. Def. 1.13).

Ein Eingangssignal x[n] der Länge N wird durch die Stufenzerlegung in NSignalkomponenten xi[n] aufgeteilt, wobei die ersten i− 1 Werte jeder Signal-komponente den Wert null haben und alle folgenden Werte (i, . . . , N − 1) denWert der Veränderung des Eingangssignals von Position i − 1 auf Position i

Page 43: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

44 KURSEINHEIT 1. GRUNDLAGEN DER SIGNALVERARBEITUNG

Abbildung 1.16: Stufenzerlegung. Schematische Darstellung der Stufenzerlegung einesSignals x[n].

haben (x[i] − x[i− 1]). Da der erste Abtastwert des Eingangssignals keinenVorgänger besitzt und somit keine Differenz gebildet werden kann, wird dieSignalkomponente x0[n] gesondert behandelt und erhält konstant den Wert x[0].Während bei der Impulszerlegung das Wissen um dieReaktion des

SystemsReaktion eines Systems

auf einen Impuls genutzt wird, steht bei der Stufenzerlegung die Reaktion einesSystems auf eine Änderung des Eingangssignals im Fokus.

Zerlegung in geraden und ungeraden Anteil

Die Zerlegung eines Eingangssignals in einen geraden und einen ungeradenAnteil (s. Abb. 1.17) erzeugt aus dem Eingangssignal zwei Signalkomponenten.Die Bezeichnungen „gerader Anteil“ bzw. „ungerader Anteil“ könnten vermutenlassen, dass hiermit die Abtastwerte auf geraden und ungeraden Positionengemeint sind. Dies ist an dieser Stelle jedoch nicht gemeint. Eine derartigeZerlegung existiert zwar ebenfalls, sie wird jedoch erst im nächsten Abschnittbeschrieben. Im Falle der hier beschriebenen Zerlegung sind nicht diegerade und

ungeradeSymmetrie

Positionender Abtastwerte, sondern die Symmetrien der beiden Signalkomponenten ge-meint. Eine der erzeugten Komponenten hat eine sogenannte gerade Symmetriewährend die andere Komponente eine ungerade Symmetrie besitzt.

Ein Signal x[n] mit Länge N wird als symmetrisch bezeichnet, wenn sichdie Abtastwerte des Signals an der Stelle N/2 betragsmäßig spiegeln, d.h.| x[N/2 + k] | = | x[N/2− k] | mit k ∈ {0, . . . , N/2}. Sind die Vorzeichen auf

Spiegelung &Vorzeichen

beiden Seiten der Spiegelung gleich, d.h. es handelt sich um eine Spiegelungentlang der vertikalen Achse durch N/2, wird die Symmetrie als gerade be-zeichnet. Haben die beiden Seiten der Spiegelung entgegengesetzte Vorzeichen,d.h. es handelt sich um eine Punktspiegelung am Punkt (N/2, 0), so wird dieSymmetrie als ungerade bezeichnet.

Im Rahmen dieser Symmetriebetrachtung wird das Signal als periodisch an-genommen, d.h. an Stelle x[N ] beginnt dasPeriodizität Signal erneut und hat den Wertx[0], an Stelle x[N + 1] hat es den Wert x[1], usw. Alternativ kann man dieIndizes der Signale auch als kongruent modulo N verstehen, wie in folgenderDefinition der Zerlegung in einen geraden und ungeraden Anteil geschehen:

Page 44: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.3. LINEARE SYSTEME 45

Abbildung 1.17: Zerlegung in geraden und ungeraden Anteil. Schematische Darstellungder Zerlegung eines Signals x[n] in einen geraden und ungeraden Anteil. Man beachte dieSonderbehandlung an Stelle x[0]: Für den geraden Anteil gilt xE [0] = x[0] und für denungeraden Anteil gilt xO[0] = 0. Diese Sonderbehandlung liegt darin begründet, dass imKontext der Symmetriebetrachtung das Signal als periodisch angesehen wird.

Definition 1.21 (Zerlegung in geraden und ungeraden Anteil).

Es sei x[n] ein Signal der Länge N . Dann ist die Zerlegung DE/O(x)des Signals x in eine Komponente xE mit gerader Symmetrie und eineKomponente xO mit ungerader Symmetrie wie folgt definiert:

DE/O(x) = {xE, xO} ,

mit

xE[n] =x[n mod N ] + x[(N − n) mod N ]

2,

xO[n] =x[n mod N ]− x[(N − n) mod N ]

2.

Man beachte, dass sich durch die Betrachtung des Eingangssignals als periodi-sches Signal die Gleichung für xE[0] zu x[0] vereinfacht und sich die Gleichungfür xO[0] zu 0 vereinfacht. Der Hintergrund, warum es sinnvoll bzw. notwendigsein kann, ein Signal als periodisches Signal aufzufassen, wird im Zuge derspäter erläuterten Fourier-Analyse deutlicher werden (s. Kurseinheit 2).

Warum die in Def. 1.21 gegebene Berechnungsvorschrift immer eine gültige34

Gültigkeit derBerechnungs-vorschrift

Zerlegung eines beliebigen Eingangssignals erzeugt, mag auf den ersten Blicknicht sofort klar sein. Bildet man jedoch die Summe aus xE[n] und xO[n] undgruppiert die einzelnen Terme um, so erhält man:

xE[n] + xO[n] =x[n]

2+

x[n]

2+

x[N − n]

2− x[N − n]

2= x[n]

Die Summe aus xE[n] und xO[n] ergibt also immer x[n].35

34d.h. eine Zerlegung, deren Summe dem Eingangssignal entspricht35E und O stehen für even (gerade) und odd (ungerade).

Page 45: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

46 KURSEINHEIT 1. GRUNDLAGEN DER SIGNALVERARBEITUNG

Abbildung 1.18: Zerlegung in gerade und ungerade Abtastwerte. Schematische Dar-stellung der Zerlegung eines Signals x[n] in seine geraden und ungeraden Abtastwerte.„Gerade“ bzw. „ungerade“ bezieht sich hierbei auf den Index des jeweiligen Abtastwertes,nicht auf seinen Betrag.

Zerlegung in gerade und ungerade Abtastwerte

Diegerade undungerade

Positionen

Zerlegung des Eingangssignals in gerade und ungerade Abtastwerte(s. Abb. 1.18) erzeugt zwei Signalkomponenten, die jeweils die Abtastwertean den geraden bzw. ungeraden Positionen des Eingangssignals enthalten:

Definition 1.22 (Zerlegung in gerade und ungerade Abtastwerte).

Es sei x[n] ein Signal der Länge N . Dann ist die Zerlegung DEOS (x) desSignals x in zwei Signalkomponenten xE und xO mit jeweils den geradenbzw. ungeraden Abtastwerten des Signals x wie folgt definiert:

DEOS (x) = {xE, xO} ,

mit

xE[n] = x[n] · ((n+ 1) mod 2) ,

xO[n] = x[n] · (n mod 2) .

Diese möglicherweise etwas seltsam anmutende Dekomposition wird im ZugederFFT Fast Fourier Transformation (FFT) verwendet. Die FFT ist ein divide-and-conquer Algorithmus36, der – im Gegensatz zur naiven Implementation – dieschnelle Berechnung einer Fourier-Transformation ermöglicht (s. Abschnitt 2.3).

36Divide-and-conquer (engl. für „teile und herrsche“) Algorithmen lösen eine Problemstel-lung durch die rekursive Aufteilung eines Problems in einfacher zu lösende Teilprobleme. DieLaufzeit liegt hierbei im Allgemeinen in der Größenordnung von n log n.

Page 46: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.3. LINEARE SYSTEME 47

Abbildung 1.19: Fourier-Zerlegung. Schematische Darstellung der Fourier-Zerlegungeines Signals x[n] in N + 2 Kosinus- und Sinusanteile.

Fourier-Zerlegung (→ Fourier-Transformation)

Die zuvor behandelten Dekompositionen, abgesehen von der Zerlegung in sym-metrische Anteile und der Stufenzerlegung, erzeugen jeweils Signalkomponenten,die als direkte Teilmengen des Eingangssignals verstanden werden können. Hier-bei werden die einzelnen Abtastwerte der Eingangssignale „in Gänze“ einerder jeweiligen Signalkomponenten zugeordnet und selber nicht weiter aufge-teilt. Aufteilung in

mehrereSummanden

Bislang wich nur die Zerlegung des Eingangssignals in zwei symmetrischeKomponenten von diesem Schema ab und teilte jeden Abtastwert in zwei Sum-manden auf. Die Fourier-Zerlegung eines Signals, auch Fourier-Transformationgenannt, teilt ebenfalls die einzelnen Abtastwerte in mehrere, potenziell vonnull verschiedene Summanden auf.

Für ein Eingangssignal x[n] mit Länge N erzeugt die Fourier-Zerlegung37

N + 2 Signalkomponenten (s. Abb. 1.19). Zerlegung inKosinus- undSinusfunktionen

Die Signalkomponenten bestehen ausjeweils N/2 + 1 Kosinus- und Sinusfunktionen ohne Phasenversatz38 und mitaufsteigender Frequenz. Die niedrigste „Frequenz“ stellen hierbei zwei konstanteSignalkomponenten dar. Es sind die beiden Komponenten mit null Kosinus-bzw. Sinusschwingungen. Die Kosinusfunktion nimmt dabei den „Gleichanteil“des Eingangssignals an. Der Gleichanteil entspricht der Gesamtverschiebungdes Eingangssignals entlang der abhängigen Variablen39. Die Sinusfunktion

37Die Bezeichnung „die Fourier-Zerlegung“ ist etwas irreführend, da es – wie in Kurs-einheit 2 erläutert wird – mehrere Varianten der Fourier-Transformation gibt. In diesemFall bezieht sich der Begriff Fourier-Zerlegung auf die reellwertige Variante der diskretenFourier-Transformation.

38Als Phase bezeichnet man die Verschiebung einer periodischen Funktion entlang derunabhängigen Variablen (üblicherweise entlang der „x-Achse“).

39üblicherweise entlang der „y-Achse“

Page 47: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

48 KURSEINHEIT 1. GRUNDLAGEN DER SIGNALVERARBEITUNG

nimmt hingegen immer einen konstanten Wert von 0 an. Für alle weiterenSignalkomponenten erhöht sich die Zahl der ganzen Schwingungen der Kosinus-und Sinusfunktionen mit jeder Signalkomponente um eine weitere Schwingung.

Hieraus wird ersichtlich, dass die Frequenzen der Kosinus- und Sinusfunktio-nenFrequenzen &

Amplitudender Signalkomponenten nicht vom Inhalt des Eingangssignals x, sondern

nur von der Länge N des Signals abhängen. Da der Phasenversatz für alleSignalkomponenten ebenfalls fest vorgegeben ist40, bleibt als einzig freier Para-meter für jede Signalkomponente die frei wählbare, konstante Amplitude derjeweiligen Kosinus- oder Sinusfunktion. Bei der an dieser Stelle beschriebenenFourier-Transformation handelt es sich um eine reellwertige, diskrete Varian-te der Fourier-Transformation. Im späterenreellwertige,

diskrete Fourier-Transformation

Verlauf des Kurses wird darüberhinaus auch eine komplexwertige Variante sowohl in ihrer diskreten als auchihrer kontinuierlichen Form vorgestellt. Daher soll an dieser Stelle noch keineDefinition für die Berechnung einer Fourier-Transformation angegeben werden,da diese ausführlich in der nächsten Kurseinheit beschrieben und erläutert wird.

Die Motivation, sich überhaupt für die Zerlegung eines Signals in sinusoidaleSignalkomponenten zu interessieren, hat im Wesentlichen drei Hauptgründe:

• Viele Signale, z.B. Audiosignale, bestehen aus der Überlagerung einernatürliche

SignalquellenVielzahl sinusförmiger Funktionen. Durch die Zerlegung in die entspre-chenden Signalkomponenten, kann diese Überlagerung in gewisser Weise„rückgängig“ gemacht werden, und es zeigen sich die Frequenzanteile, ausdenen ein solches Signal zusammengesetzt ist. Darüber hinaus ist es aufdiese Weise möglich, nachträglich bestimmte Frequenzanteile gezielt zuverändern oder ganz zu entfernen, z.B. um bestimmte Störgeräusche zuentfernen.

• Lineare Systeme haben die Eigenschaft, sinusförmige Funktionen nur inAnalyse linearer

Systemeihrer Amplitude und Phase, nicht aber in ihrer Frequenz zu verändern.Somit ist es möglich – ähnlich wie bei der Impulszerlegung – lineareSysteme über ihr spezifisches Verhalten gegenüber einfachen sinusförmigenSignalen zu charakterisieren.

• Die Fourier-Transformation ist die Grundlage für das Gebiet derFourier-Analyse soge-nannten Fourier-Analyse. Diese stellt eine Vielzahl z.T. mächtiger ma-thematischer Werkzeuge zur Verfügung, die von einer Vielzahl modernerAlgorithmen für die Signalverarbeitung genutzt werden.

1.3.3 Analyse nicht-linearer Systeme

Nachdem sich die vorhergehenden Abschnitte intensiv mit der Analyse vonlinearen Systemen beschäftigt haben, stellt sich die Frage, welche Strategien es

Strategien fürnicht-lineare

Systeme

für die Untersuchung nicht-linearer Systeme gibt. Die Antwort ist einerseitsernüchternd und andererseits betont sie die Wichtigkeit des Konzeptes derLinearität: Der faktisch einzig existierende Ansatz für die Analyse nicht-linearerSysteme besteht darin, sie als zumindest teilweise lineare Systeme anzusehen

40Der Phasenversatz ist überall 0.

Page 48: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.4. FALTUNG DISKRETER SIGNALE 49

und diese Subteile getrennt zu untersuchen oder das nicht-lineare System übereine Transformation zu linearisieren. In einem nicht unerheblichen Teil der Fällewird die Nichtlinearität eines zu untersuchenden Systems schlicht ignoriert.

Der vorhergehende Abschnitt hat Ihnen das wichtige Konzept der LinearitätLinearitätim Kontext der Analyse linearer Systeme erläutert. Die beschriebenen Eigen-

schaften dieser Systeme und die verschiedenen Ansätze, diese Eigenschaftenfür die Analyse der Systeme zu verwenden, bilden die theoretische Basis füreine Vielzahl von Methoden der Signalverarbeitung. Insbesondere die im Fol-genden beschriebene Faltung und die in der nächsten Kurseinheit beschriebeneFourier-Analyse bauen auf den hier vermittelten Grundlagen auf.

1.4 Faltung diskreter Signale

Lernziele:Der folgende Abschnitt dieser Kurseinheit stellt eine zentrale Me-thode der digitalen Signalverarbeitung vor: Die diskrete Faltung.Neben den grundlegenden Eigenschaften dieser mathematischenOperation wird insbesondere der enge Zusammenhang zwischen derFaltungsoperation und den zuvor beschriebenen linearen Systemendargestellt. Es wird gezeigt, dass mittels der Faltungsoperation undder Impulsantwort eines Systems jedes Eingangssignal in ein ent-sprechendes Ausgangssignal überführt werden kann. Der Abschnittendet mit einer kurzen Vorstellung und Abgrenzung einer weiterenmathematischen Operation, die der Faltung mathematisch sehrähnlich, konzeptionell jedoch eigenständig ist: die Korrelation.

Eine Faltung, auch Konvolution genannt, ist eine mathematische KonvolutionOperation,die zwei Signale miteinander kombiniert. Sie wird durch den Faltungsoperator„ ∗ “ symbolisiert41. Wie bereits in Abschnitt 1.3 erwähnt, nutzt die Faltungdas für lineare Systeme geltende Superpositionsprinzip (s. Def. 1.18), indemdie Reaktion eines Systems für jede Signalkomponente separat betrachtetwird und anschließend mittels Addition aus diesen einzelnen Reaktionen einAusgabesignal erzeugt wird.

Die Grundlage der Faltungsoperation bilden zwei zentrale Konzepte: Die Delta-funktion δ[n] und die Impulsantwort Deltafunktion &

Impulsantworth[n]. Die Deltafunktion wurde bereits als

„diskrete Variante“ des Kronecker-Deltas in Definition 1.9 eingeführt. Sie liefertnur für den Abtastwert an Stelle null einen Wert von eins zurück und an allenanderen Stellen einen Wert von null (s. Abb. 1.20):

41Der Stern „ ∗ “ als Faltungsoperator wird häufig mit dem Punktoperator „ · “ für dieMultiplikation verwechselt!

Page 49: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

50 KURSEINHEIT 1. GRUNDLAGEN DER SIGNALVERARBEITUNG

Abbildung 1.20: Deltafunktion. Schematische Darstellung der Deltafunktion δ[n], dieauch als diskrete Variante des Kronecker-Deltas bekannt ist (s. Def. 1.9 und 1.23). DieDeltafunktion hat genau an Stelle null den Funktionswert eins und ansonsten an allenanderen Stellen den Funktionswert null.

Definition 1.23 (Deltafunktion).

Die Deltafunktion δ[n] ist definiert durch

δ[n] =

{1 wenn gilt n = 0,

0 wenn gilt n �= 0, n ∈ Z.

Ein Signal bzw. eine Funktion, die nur an einer Stelle einen von null verschie-denen Wert zurückliefert, wird auch als Impuls bezeichnet, und da die Delta-funktion genau den Wert eins zurückliefert, wird sie auch alsEinheitsimpuls Einheitsimpulsbezeichnet. Ähnlich wie in der linearen Algebra ein Vektor als Linearkombina-tion von Basisvektoren dargestellt werden kann, ist es mit dem Einheitsimpulsdurch Verschiebung und Skalierung möglich, jeden anderen Impuls abzubilden.Angenommen es gäbe einen Impuls p[n] an der Stelle 10 mit einer Amplitu-de von −1.49. Dieser Impuls kann durch Verschiebung und Skalierung derDeltafunktion als p[n] = −1.49 · δ[n− 10] dargestellt werden. Diese Darstel-lung entspricht exakt der in Definition 1.19 beschriebenen Impulszerlegungeines Signals! Ein Signal kann demnach als eine Summe von skalierten undverschobenen Deltafunktionen aufgefasst werden.

Das zweite Konzept, die Impulsantwort, beschreibt die Reaktion eines Systemsauf die Eingabe eines Einheitsimpulses:

Definition 1.24 (Impulsantwort).

Es sei S ein lineares, verschiebungsinvariantes System. Dann ist dieImpulsanwort hS[n] des Systems gegeben durch

δ[n] → S → hS[n]

mit δ[n] der Deltafunktion.

Page 50: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.4. FALTUNG DISKRETER SIGNALE 51

Abbildung 1.21: Impulsantwort. Schematische Darstellung einer möglichen Impulsantworteines linearen Systems auf die Eingabe einer Deltafunktion δ[n].

Einen Eindruck davon, wie eine solche Impulsantwort aussehen könnte, liefertdie Darstellung in Abbildung 1.21. Es stellt sich nun die Frage, wie sich dieseImpulsantwort verändert, wenn ein anderer Impuls als der Einheitsimpuls indas System S eingegeben wird. Die Antwort findet sich in Impulsantwort auf

beliebige Impulsezwei der zuvor

beschriebenen Eigenschaften linearer Systeme: der Homogenität (Def.: 1.16)und der Verschiebungsinvarianz (Def.: 1.17). Durch diese Eigenschaften wirdgarantiert, dass eine Verschiebung des Eingangssignals um den Wert a undeine Skalierung des Eingangssignals um den Faktor b zu einer entsprechendenVerschiebung und Skalierung des Ausgangssignals führt. Die Eingabe einesImpulses b · δ[n− a] in das System S führt demnach zu einer Impulsantwortb · hS[n− a]. Die Impulsantwort ist also exakt in der gleichen Weise verschobenund skaliert wie die in das System eingegebene Deltafunktion. Das bedeutet,wenn die Systemantwort auf den Einheitsimpuls bekannt ist, sind auch dieAntworten auf alle anderen Impulse bekannt.

Folglich kann ein beliebiges Eingangssignal x[n] zunächst mittels der Impuls-zerlegung (Def.: 1.19) in eine Menge DIMP(x) einzelner Impulse xi aufgeteiltwerden, um im Anschluss für Dekomposition &

Synthesejeden dieser Impulse die Impulsantwort des Sys-

tems zu bestimmen. Abschließend kann das Ausgangssignal aus der Mengeder Impulsantworten durch Summation synthetisiert werden. Für diesen Pro-zess – der Bestimmung des Ausgangssignals eines Systems für ein beliebigesEingangssignal – wird nur die Impulsantwort hS des Systems S bzgl. des Ein-heitsimpulses benötigt. Die Impulsanwort eines linearen Systems beschreibtsomit das Verhalten des Systems vollständig !

Die im vorhergehenden Absatz informell beschriebene Vorgehensweise ent-spricht der Berechnung des Ausgangssignals y[n] eines Systems S mit bekannterImpulsantwort hS[n] durch eine Faltung :

Page 51: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

52 KURSEINHEIT 1. GRUNDLAGEN DER SIGNALVERARBEITUNG

Definition 1.25 (Faltung).

Gegeben seien das Signal x[n] der Länge N und das Signal h[n] der LängeM . Dann ist die Faltung von x und h definiert durch

y[i] :=M−1∑j=0

h[j] x[i− j], i ∈ {0, . . . ,M +N − 2} .

Das resultierende Signal y[n] hat eine Länge von N+M−1. Die Kurzformfür die gegebene Berechnungsvorschrift nutzt den Faltungsoperator „∗“und ist definiert als:

x[n] ∗ h[n] = y[n] .

Obwohl die in dieser Definition angegebene Berechnungsvorschrift die Berech-nung des Ausgangssignals y[n] auf eine etwas andere Weise vollzieht als diezuvor gegebene, informelle Beschreibung, sind die erzeugten Ausgangssignalefür beide Vorgehensweisen identisch. Der Unterschied besteht in der jeweiligenPerspektive auf die Berechnung der einzelnen Werte des Ausgangssignals.

Die informelle Beschreibung betrachtet die Berechnung des AusgangssignalsausPerspektive des

Eingangssignalsder Perspektive des Eingangssignals. Für jeden Abtastwert des Eingangssi-

gnals, also für jeden Impuls der Impulszerlegung, wird berechnet, zu welchenAbtastwerten des Ausgangssignals der Impuls einen Beitrag nach dem Verlas-sen des Systems leistet. Der folgende Pseudocode führt die Berechnung desAusgangssignals auf diese Weise durch:

memset(y,0,N+M-1); // Initialisiere das Ausgangssignal

// mit Nullen.

for (i = 0; i < N; i++) // Für jeden Abtastwert des

// Eingangssignals ...

for (j = 0; j < M; j++) // ... durchlaufe die Impulsantwort

// des Systems ...

y[i+j] += x[i]*h[j]; // ... und addiere das Produkt aus

// Eingangssignal und Impulsantwort

// auf das Ausgangssignal

Eine schematische Darstellung dieses Pseudocodes liefert Abbildung 1.22. DasEingangssignal x[n] mit Länge 7 ist hierbei in Grüntönen und die Impulsantworth[n] mit Länge 4 in Blautönen schattiert. Das Ausgangssignal ist mit y[n]bezeichnet und hat eine Länge von 7+4− 1 = 10. Die dargestellte Bearbeitungder verschachtelten Schleifen erfolgt in der Abbildung zeilenweise von untennach oben. Das wiederholte Durchlaufen der inneren Schleife mit Index j istdurch die mehrfachen, waagrechten Pfeile angedeutet. Die äußere Schleife mitIndex i wird durch den vertikalen Pfeil repräsentiert.

Page 52: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.4. FALTUNG DISKRETER SIGNALE 53

Abbildung 1.22: Faltung aus der Perspektive des Eingangssignals. Für jeden Abtastwertdes Eingangssignals x[n] wird bestimmt, wie dieser nach Verlassen des Systems, alsonach Skalierung und Verschiebung der Impulsantwort h[n], zu den Abtastwerten desAusgangssignals y[n] beiträgt.

Im Gegensatz zur informellen Beschreibung betrachtet die in der Definition gege-bene Berechnungsvorschrift die Faltung aus der Perspektive des Ausgangssignals.Für jeden Wert des Ausgangssignals wird berechnet, welche Perspektive des

AusgangssignalsAbtastwerte des

Eingangssignals zum Ausgangssignal beitragen. Mit dieser Herangehensweiseergibt sich folgender Pseudocode:

for (i = 0; i < N+M-1; i++) // Für jeden Wert des

// Ausgangssignals ...

for (j = 0; j < M; j++) // ... durchlaufe die Elemente

// der Impulsantwort ...

y[i] += x[i-j]*h[j]; // ... und multipliziere das

// jeweilige Element der Impuls-

// antwort mit dem "passenden"

// Abtastwert des Eingangssig-

// nals

Anhand der schematischen Darstellung dieses Pseudocodes in Abbildung 1.23ist ersichtlich, dass beide Berechnungsvorschriften – sowohl die der informellenBeschreibung, als auch die der Definition – Erzeugung

identischerAusgangssignale

identische Ausgangssignale erzeugen.Darüber hinaus wird aus der Perspektive des Ausgangssignals ein Problemersichtlich, das aus der Perspektive des Eingangssignals leicht zu übersehenist: In den Randbereichen des Ausgangssignals sind Teile der Summe aufgrund„fehlender Teile“ des Eingangssignals unbestimmt. Diese fehlenden Teile sindin Abbildung 1.23 grau unterlegt und mit Fragezeichen beschriftet. Zu denüblichen Vorgehensweisen, diesem Problem zu begegnen, gehört das sogenanntePadding, das Auffüllen der fehlenden Werte mit einem konstanten Wert. PaddingDiesgeschieht auch bei dem oben beschriebenen Verfahren aus Sicht des Eingangssi-gnals, bei dem die fehlenden Abtastwerte implizit mit einem konstanten Wert0 angenommen werden. Eine weitere Möglichkeit besteht in der Spiegelungdes Eingangssignals an den Randbereichen, um die lokale Charakteristik des

Page 53: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

54 KURSEINHEIT 1. GRUNDLAGEN DER SIGNALVERARBEITUNG

Abbildung 1.23: Faltung aus der Perspektive des Ausgangssignals. Für jeden Abtastwertdes Ausgangssignals y[n] wird bestimmt, welche Abtastwerte des Eingangssignals x[n]nach Verlassen des Systems, also nach Filterung mittels der Impulsantwort h[n], zumAusgangssignal beitragen.

Spiegelung derRandbereiche

Signals besser anzunähern. Unabhängig davon, auf welche Weise die fehlendenWerte approximiert werden, weisen die Randbereiche des Ausgangssignals einerFaltung immer verfälschte Werte auf. Aus diesem Grund, insbesondere wenn dieLänge des Eingangssignal deutlich größer ist als die Länge der Impulsantwort,werden die Randbereiche des Ausgangssignals meist verworfen und nicht fürdie weitere Verarbeitung verwendet.

1.4.1 Eigenschaften der Faltung

Man beachte, dass innerhalb Definition 1.25 nur allgemein zwei Signale x und hals Operanden der Faltung genannt werden. Keines der Signale wird explizit alsEingangssignal oder Impulsantwort identifiziert. Dies liegt darin begründet, dassdie Faltung eine von der konkreten AnwendungFaltung →

unabhängigemathematische

Operation

unabhängige mathematischeOperation ist, die nach einer festen Berechnungsvorschrift zwei Signale zu einemdritten Signal kombiniert. Sie ist einfach als mathematisches „Werkzeug“ anzu-sehen, mit dessen Hilfe sich das Ausgangssignal eines linearen Systems mittelsder Impulsantwort des Systems berechnen lassen kann. In diesem Anwendungs-kontext wird die Impulsanwort hS häufig auch als Filterkern, Filteroperator,Faltungskern, oder Kernel (engl.) bezeichnet. Aus der allgemeinen Definitionder Faltung geht entsprechend auch hervor, dass es keinen Unterschied macht,welches der beiden Signale (x oder h) in einer konkreten Anwendung die Rolledes „Eingangssignal“ oder die Rolle der „Impulsantwort“ übernimmt.

Wie bereits in Abschnitt 1.3 erläutert, können einfache, lineare Systeme zukomplexen Systemen „verschaltet“ werden, die weiterhin alle Eigenschaften eineslinearen Systems erfüllen (z.B. Abb. 1.12). AufVerknüpfung

von Faltungs-operationen

die gleiche Weise können auchFaltungsoperationen miteinander verknüpft werden, um z.B. mehrere Impuls-antworten miteinander zu kombinieren. Hierbei gelten für die Faltungsoperationdie algebraischen Regeln des Kommutativ-, Assoziativ- und Distributivgesetzes:

Page 54: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.4. FALTUNG DISKRETER SIGNALE 55

Merksatz 1.4 (Algebraische Regeln der Faltungsoperation).

Die Faltungsoperation ist

kommutativ: a[n] ∗ b[n] = b[n] ∗ a[n] ,

assoziativ: (a[n] ∗ b[n]) ∗ c[n] = a[n] ∗ (b[n] ∗ c[n]) ,

distributiv: a[n] ∗ b[n] + a[n] ∗ c[n] = a[n] ∗ (b[n] + c[n]) .

Die Modellierungkaskadierter &paralleler Systeme

Eigenschaften der Kommutativität und Assoziativität können hierbei für dieModellierung kaskadierter Systeme verwendet werden, während die Eigenschaftder Distributivität die Modellierung paralleler Systeme, deren Ausgänge addiertwerden, erlaubt.

1.4.2 Elementare Impulsantworten

In den bisherigen Abschnitten wurde das Verhältnis von Eingangssignal, Impul-santwort und Ausgangssignal auf eine überwiegend abstrakte Art und Weisebeschrieben. Im Folgenden sollen nun einige elementare Impulsantworten vorge-stellt werden, um ein besseres Gefühl für die Wirkung dieser Impulsantwortenauf das jeweilige Eingangssignal zu vermitteln.

Identität

Die einfachste Impulsantwort besteht aus der Deltafunktion Deltafunktionδ[n] selbst. Wird einEingangssignal x[n] mit der Deltafunktion gefaltet, so wird das Eingangssignalnicht verändert. Es gilt:

x[n] ∗ δ[n] = x[n]

Die Deltafunktion ist das neutrale Element der Faltung, so wie die Zahl „1“ dasneutrale Element für die Multiplikation und die Zahl „0“ das neutrale Elementfür die Addition ist. In diesem Zusammenhang wird die Deltafunktion auchals Identität bzw. identische Abbildung der Faltung bezeichnet. Abgesehen vonden mathematischen Eigenschaften der Identität wird die Deltafunktion z.B.für die Modellierung verlustfreier Übertragungswege eingesetzt.

Verstärkung

Wird Multiplikation mitkonstantem Faktor

die Deltafunktion mit einem konstanten Faktor k multipliziert, so ergibtsich eine Impulsantwort, die das Eingangssignal um den gleichen Faktor skaliert:

x[n] ∗ (k · δ[n]) = k · x[n]Das auf diese Weise beschriebene System ist ein Verstärker, wenn der Faktorgrößer eins ist und ein Abschwächer, wenn der Faktor kleiner eins ist. Bei einemnegativen Faktor wird zudem das Eingangssignal an der Achse der unabhängigenVariablen (zumeist die X-Achse) gespiegelt.

Page 55: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

56 KURSEINHEIT 1. GRUNDLAGEN DER SIGNALVERARBEITUNG

Verzögerung

DurchSubtraktion eineskonstanten Wertes

die Subtraktion eines konstanten Wertes s auf die unabhängige Variableder Deltafunktion entsteht eine Impulsantwort, die das Eingangssignal um denWert von s verzögert:

x[n] ∗ δ[n− s] = x[n− s]

Ein lineares System, das Signale auf diese Weise verzögert, wird insbesonde-re für die Modellierung von Signallaufzeiten eingesetzt. Dies gilt sowohl fürdie Übertragung von Signalen über große Reichweiten, z.B. Funksignale vonRaumsonden, als auch für die Übertragung von Signalen in Medien mit gerin-gerer Übertragungsgeschwindigkeit, bei der Verzögerungen schon bei kürzerenDistanzen eine Rolle spielen, z.B. beim Sonar.

An dieser Stelle sei noch auf eine „Eigenart“ der Faltung hingewiesen, die amBeispiel der Verzögerung deutlich wird. Warum wird für eine Verzögerung

Spiegelung desFilterkerns

von s der Wert von s subtrahiert und nicht addiert? Sollte dies nicht genauandersherum sein? Ein erneuter Blick auf Abbildung 1.23 kann diese Fragebeantworten. Schaut man sich z.B. die Berechnung des Ausgangswertes y[4] an,so ist zu erkennen, dass mit aufsteigendem Index j die Werte des Filterkernsmit den Werten des Eingangssignals x[n] „nach links“, d.h. mit absteigendenIndizes (4,3,2,1), multipliziert werden. Aus der Perspektive des Eingangssignals– also von x[1] „nach rechts bzw. oben“ schauend – erscheint der Filterkernh[n] entlang seiner unabhängigen Variablen gespiegelt (h[3] , h[2] , h[1] , h[0]).Allgemein bedeutet dies, dass die Werte eines Filterkerns h[n] mit aufsteigendenIndizes sich auf entsprechend weit zurückliegende Werte des Eingangssignalsbeziehen! Der Wert h[10] eines Filterkerns bezieht sich beispielsweise jeweilsauf einen Wert des Eingangssignals, der 10 Abtastwerte bzgl. des aktuellenAusgangswertes n „in der Vergangenheit“ liegt (y[n] += x[n− 10] · h[10]).

Echo

ÜberKombination vonDeltafunktionen

die Kombination mehrerer ggf. skalierter und verzögerter Deltafunktionenkann eine Impulsantwort erzeugt werden, die ein oder mehrere Echos demEingangssignal hinzufügt. So erzeugt das folgende Beispiel ein Echo im Abstandvon 3 Abtastwerten mit einer Amplitude von 50% des Eingangssignals:

x[n] ∗ (δ[n] + 0.5 · δ[n− 3]) = x[n] + 0.5 · x[n− 3]

Das Hinzufügen von Echos findet z.B. bei der Abmischung von MusikstückenVerwendung, um ein natürlicheres Klangbild zu erzeugen.

diskrete Ableitung

Mit einer geeignet geformten Impulsantwort können auch „Analysis-artige“Ableitung Operationen durchgeführt werden, z.B. eine angenäherte erste Ableitung des

Eingangssignals. Für eine solche Approximation gibt es verschiedene Ansätze.

Page 56: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.4. FALTUNG DISKRETER SIGNALE 57

Der einfachste Ansatz bildet die Differenz zwischen dem aktuellen Abtastwertund dem vorhergehenden Abtastwert:

y[n] = x[n]− x[n− 1]

= x[n] ∗ (δ[n]− δ[n− 1])

Ein weiterer, häufig eingesetzter Ansatz approximiert die erste Ableitungsymmetrisch um einen Abtastwert herum:

y[n] = (x[n+ 1]− x[n− 1]) /2

= x[n] ∗ (0.5 · δ[n+ 1]− 0.5 · δ[n− 1])

Insbesondere Bildverarbeitungin der Bildverarbeitung wird diese Approximation der erstenAbleitung eines Signals häufig für die Detektion von Kanten im Bild oder fürdie Beschreibung der Struktur eines lokalen Bildbereiches verwendet.

diskrete Stammfunktion

Auf Approximation derStammfunktion

ähnliche Weise wie die erste Ableitung des Eingangssignals kann auch dieStammfunktion des Eingangssignals approximiert werden:

y[n] = x[n] + y[n− 1]

= x[n] ∗Θ(n)

mit Θ(n) der Heaviside-Funktion (s. Def. 1.13).

Aufgrund der rekursiven Definition der approximierten Stammfunktion wird esnotwendig, dass die entsprechende Impulsantwort bis ins positiv Unendlicheeinen Wert von eins annimmt. Dies kann durch die endliche Kombination voneinfachen Deltafunktion nicht erreicht werden. Aus diesem Grund wird hierdie bereits aus Heaviside-FunktionDefinition 1.13 bekannte Heaviside-Funktion als Impulsantwortverwendet.

Tiefpassfilter

Wie zuvor erwähnt werden in Abhängigkeit des jeweiligen Kontextes Impuls-antworten oft auch als Filterkerne oder einfach nur als FilterkerneFilter bezeichnet. Zuden meist verwendeten Filtern gehören hierbei die sogenannten Tiefpassfilter.Ein Tiefpassfilter ist eine Impulsantwort, die bei der Faltung mit einem Ein-gangssignal, nur die tiefen Frequenzanteile im Eingangssignal erhält und diehohen Frequenzanteile „herausfiltert“. Es gibt viele verschiedene Varianten vonTiefpassfiltern. Sie alle bestehen typischerweise aus einer Anzahl an benachbar-ten, (überwiegend) positiven Werten. Die einfachste Form eines Tiefpassfiltersbesteht aus einem Rechteckimpuls, der z.B. über zwei Heaviside-Funktionenbeschrieben werden kann (s. Abb. 1.24):

y[n] = x[n] ∗ 1

11(Θ(n)−Θ(n− 11))

Page 57: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

58 KURSEINHEIT 1. GRUNDLAGEN DER SIGNALVERARBEITUNG

Abbildung 1.24: Ein einfacher, rechteckförmiger Tiefpassfilter.

Der Faktor von 1

11sorgt in diesem Fall dafür, dass die Fläche des Rechteckim-

pulses eins wird und somit nur eine Tiefpassfilterung und nicht etwa auch eineVerstärkung eintritt. Welche Frequenzen der Filter noch passieren lässt undwelche Frequenzen herausgefiltert werden, hängt von der Breite des jeweili-gen Filters ab. Je breiter der Filter ist, desto tiefer sind die Frequenzen, dieherausgefiltert werden.

Hochpassfilter

Ein Hochpassfilter ist das logische Gegenstück zu einem Tiefpassfilter. Es wer-den tiefe Frequenzen herausgefiltert und hohe Frequenzen bleiben erhalten. Wieauch bei den Tiefpassfiltern gibt es eine große Vielzahl verschiedener Varianten,wie ein Hochpassfilter aufgebaut sein kann. In der Tat ist es so, dass aus jedemTiefpassfilter ein Hochpassfilter „konstruiert“ werden kann.Konstruktion aus

TiefpassfilterAuch in diesem

Fall spielt das Superpositionsprinzip (vgl. Def.: 1.18) eine wichtige Rolle. Wiebereits oben beschrieben, ist die Deltafunktion die Identität bzgl. der Faltung.Alle Werte im Eingangssignal werden bei Faltung mit der Deltafunktion ohneVeränderung in das Ausgangssignal übernommen. Ein Tiefpassfilter hingegenübernimmt nur die tiefen Frequenzanteile in das Ausgangssignal. Dank desSuperpositionsprinzips können diese beiden Vorgänge additiv miteinander ver-knüpft werden, so dass eine Impulsantwort, die aus einer Deltafunktion bestehtvon der ein Tiefpassfilter subtrahiert wurde, nur die hohen Frequenzanteileeines Eingangssignals in das Ausgangssignal übernimmt.

Für das vorherige Beispiel eines einfachen, rechteckigen Tiefpassfilters sieht derentsprechende Hochpassfilter folgendermaßen aus (s. Abb. 1.25):

y[n] = x[n] ∗(δ[n− 5] − 1

11(Θ(n)−Θ(n− 10))

)An der Verschiebung der Deltafunktion ist zu erkennen, dass diese üblicherweisesymmetrisch im Zentrum des Tiefpassfilters positioniert wird.

Die Konstruktion eines Hochpassfilters aus einer Deltafunktion und einemTiefpassfilter ist ein Beispiel dafür, wie die mathematischen Eigenschaften

Page 58: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.4. FALTUNG DISKRETER SIGNALE 59

Abbildung 1.25: Ein einfacher Hochpassfilter, der über die Subtraktion eines rechteckigenTiefpassfilters von einer über dem Tiefpassfilter zentrierten Deltafunktion konstruiertwurde.

linearer Systeme genutzt werden können, um Filterkerne gezielt aus mehrerenKomponenten zu konstruieren.

1.4.3 Korrelation

Zum Abschluss dieses Abschnitts soll noch auf ein bekanntes Verfahren derSignalverarbeitung hingewiesen werden, das sich zwar konzeptionell von Korrelation �=

Konvolutionder

zuvor beschriebenen Faltung unterscheidet, mathematisch jedoch fast auf iden-tische Weise berechnet wird. Dementsprechend häufig kommt es diesbezüglichzu Verwechslungen und Missverständnissen.

Mathematisch ist die Korrelation eine Operation, die genau wie die Konvolutionzwei Signale miteinander kombiniert. Formal ist die Korrelation wie folgtdefiniert:

Definition 1.26 (Korrelation).

Es sei x[n] ein Signal der Länge N und t[n] ein Signal der Länge M .Dann ist die Korrelation von x und t gegeben durch

y[i] =M−1∑j=0

t[j] x[i+ j], i ∈ {0, . . . ,M +N − 2} .

Das resultierende Signal y[n] hat eine Länge von N +M − 1 und wird alsKreuzkorrelation bezeichnet. Sind x und t identisch, wird das resultierendeSignal auch Autokorrelation genannt.

Auf den ersten Blick könnte der Unterschied zur Faltung (s.Def. 1.25) fastübersehen werden. Innerhalb des Summanden hat Faltungskern nicht

gespiegeltsich nur die Subtraktion

der Indizes in eine Addition verwandelt. Diese Änderung führt dazu, dass dieoben im Abschnitt „Verzögerung“ (1.4.2) beschriebene, gespiegelte Verwendungdes Faltungskerns im Kontext der Korrelation nicht auftaucht und das demFaltungskern entsprechende Signal t „richtig herum“ verwendet wird.

Konzeptionell bestimmt die Korrelation für jede Position n eines Eingangs-signals x[n] wie ähnlich ein Mustersignal t[n] dem Eingangssignal an dieser

Page 59: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

60 KURSEINHEIT 1. GRUNDLAGEN DER SIGNALVERARBEITUNG

Position ist. Anwendung findet diese Form der Signalverarbeitung z.B. dann,wenn die Position eines bekannten Signalmusters inDetektion von

bekanntenSignalmustern

einem Eingangssignaldetektiert werden soll. Ein Beispiel hierfür ist z.B. die Detektion von Unter-wasserobjekten mittels Sonar. Bei modernen Geräten wird hierzu nicht nur eineinfacher Puls ausgesandt, sondern ein sogenanntes „Chirp“-Signal – ein Signalmit einer ansteigenden Frequenz. Dieses Signal wird von entfernten Objektenzurückreflektiert und von einer Empfangseinheit wieder aufgenommen. Dasaufgenommene Signal ist in der Regel stark verrauscht und enthält eines odermehrere Echos des zuvor ausgesandten „Chirp“-Signals. Mittels einer Kreuzkor-relation lassen sich nun diese Echos identifizieren und über die Verschiebung dieLaufzeit der Signale und somit die Distanz der jeweiligen Objekte ermitteln.

Da sich mathematisch die Korrelation von einer Faltung nur durch einennicht gespiegelten Faltungskern unterscheidet, kann durch eine entsprechendeVorverarbeitung, d.h. eine Spiegelung des Faltungskerns, eine Korrelation mitden Methoden einer Faltung berechnet werden.

Der vorhergehende Abschnitt stellte Ihnen die Operation der (diskreten) Faltungim Kontext der Signalverarbeitung vor. Neben den mathematischen Grundlagenund Eigenschaften der Faltung wurde auch die enge Beziehung zwischen denzuvor vorgestellten linearen Systemen und der Faltungsoperation erläutert.Anhand wichtiger, elementarer Impulsantworten wurde das Verständnis fürdiesen Zusammenhang weiter vertieft. Abschließend wurde die Operation derKorrelation vorgestellt, die mathematisch der Faltung sehr ähnlich, konzeptionelljedoch eigenständig ist.

1.5 Faltung kontinuierlicher Signale

Lernziele:Der letzte Abschnitt dieser Kurseinheit wirft einen kurzen Blickdarauf, wie die bisher für diskrete Signale beschriebenen Metho-den und Konzepte für kontinuierliche Signale formuliert werdenkönnen. Im Fokus steht dabei der sogenannte Dirac-Impuls, derdas kontinuierliche Pendant der zuvor beschriebenen diskretenDeltafunktion ist.

Die Beschreibung der in dieser Kurseinheit vorgestellten Methoden und Kon-zepte hat sich bislang auf diskrete Signale konzentriert. Zum Abschluss dieserKurseinheit soll nun auch ein Blick auf kontinuierliche Signale geworfen wer-den. Auch wenn kontinuierliche Signale nicht in einem Computer verarbeitetwerden können, bieten sie die Möglichkeit, die zugrunde liegenden Prozesseund die korrespondierenden analogen Signale mathematisch zu modellieren.Auf dieselückenlose

mathematischeBeschreibung

Weise wird eine lückenlose mathematische Beschreibung ausgehendvom zugrunde liegenden Prozess über die Analog-Digital-Wandlung hin zumdiskreten Signal im Computer möglich.

Page 60: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.5. FALTUNG KONTINUIERLICHER SIGNALE 61

1.5.1 Dirac-Impuls

Analog zum Vorgehen bei diskreten Signalen können auch kontinuierliche Sig-nale als Folgen von Impulsen aufgefasst werden. Im Gegensatz zu diskretenSignalen besteht jedoch das Problem, dass ein kontinuierliches Signal selbstauf einem endlichen Intervall, z.B. im Bereich von 0 bis 1, unendlich vieleWerte unendlich viele

Werte → unendlichschmaler Impuls

besitzt. Im Umkehrschluss bedeutet dies, dass der im diskreten Fallverwendete Einheitsimpuls im kontinuierlichen Fall unendlich schmal sein muss.Darüber hinaus sollte es – analog zum diskreten Fall – möglich sein, dassein kontinuierliches Signal als eine Kombination von skalierten und verschobe-nen Einheitsimpulsen aufgefasst werden kann. Ein Impuls, der diesen beidenForderungen genügt, ist der sogenannte Dirac-Impuls:

Definition 1.27 (Dirac-Impuls).

Der Dirac-Impuls δ(t) ist über die folgenden Eigenschaften definiert:

δ(t) =

{∞ , falls t = 0,

0 , falls t �= 0, t ∈ R

mit ∫+∞

−∞

δ(t) dt = 1.

Der Dirac-Impuls42 nimmt demnach nur genau an Stelle 0 den Wert unendlichan und hat ansonsten an allen anderen Stellen den Wert null. Dirac-Impuls →

Pendant zurdiskretenDeltafunktion

Die Fläche desImpulses an Stelle 0 beträgt genau 1. Es mag auf den ersten Blick unklarsein, warum der Dirac-Impuls ein geeignetes kontinuierliches Pendant zurdiskreten Deltafunktion darstellen soll. Zur Erinnerung: Im Falle der diskretenDeltafunktion δ[n] wurde diese mit einem Signal x[n] multipliziert und so derWert des Signals x an Stelle 0 isoliert:

x[n] · δ[n] ={x[0] wenn gilt n = 0,

0 wenn gilt n �= 0, n ∈ Z.

Würde man dieses Vorgehen 1-zu-1 auf den Dirac-Impuls übertragen, so würdeder Wert eines kontinuierlichen Signals x(t) an Stelle 0 mit dem Wert δ(0) = ∞(unendlich) multipliziert. Der ursprüngliche Wert des Signals x an Stelle 0würde so verloren gehen. Dieses Vorgehen erscheint also nicht den gewünschtenZweck zu erfüllen.

Es zeigt sich, dass mit Hilfe des Dirac-Impulses die einzelnen Werte eineskontinuierlichen Signals auf eine etwas andere Weise isoliert werden:∫

+∞

−∞

x(t) · δ(t) dt = x(0) .

42Manchmal wird der Dirac-Impuls analog zum diskreten Fall auch als Deltafunktionbezeichnet.

Page 61: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

62 KURSEINHEIT 1. GRUNDLAGEN DER SIGNALVERARBEITUNG

Abbildung 1.26: Impuls mit Einheitsfläche.

Da die Fläche des Dirac-Impulses genau eins beträgt und der Dirac-Impuls nurgenau an Stelle 0 einen Wert ungleich null hat, wird diese Fläche ausschließlichdurch den Wert des Signals x(t) an Stelle 0 skaliert. Mit diesem „Umweg“über das Integral des Produktes von Signal undAusblend-

eigenschaftDirac-Impuls kann schließlich

der Wert des Signals an Stelle 0 isoliert werden. Dementsprechend wird dieWirkung dieses Integrals mitunter auch als Ausblendeigenschaft des Dirac-Impulses bezeichnet.

Es bleibt die Frage, ob es überhaupt möglich ist, einen derartigen Impuls(mathematisch) konstruieren zu können. Immerhin beschreibt die oben genannteDefinition des Dirac-Impulses einen Impuls, der nicht nur unendlich schmal undunendlich hoch ist, sondern gleichzeitig auch eine Fläche von genau 1 habensoll. Intuitiv könnte man gar vollständig anzweifeln, ob ein derartiger Impulsüberhaupt eine Fläche habe!

EineKonstruktion einesDirac-Impulses

Möglichkeit, einen derartigen Impuls zu konstruieren, zeigt Abbildung 1.26.Sie zeigt einen rechteckigen Impuls, dessen Höhe und Breite über einen Para-meter n gesteuert werden:

δn(t) =

{n wenn gilt − 1

2n≤ t ≤ 1

2n,

0 sonst.

Die Fläche dieses rechteckigen Impulses ist unabhängig vom konkreten Wert desParameters n immer eins. Für n → ∞ („n gegen unendlich“) wird der Impulsunendlich schmal, unendlich hoch und hat weiterhin eine Fläche von genau1. Im Grenzwert zeigt dieser Impuls demnach das gleiche Verhalten wie einDirac-Impuls:

limn→∞

∫+∞

−∞

x(t) · δn(t) dt = x(0) .

Ein weiterer Aspekt des Dirac-Impulses besteht darin, dass mit seiner Hilfe dieAbtastung Verbindung zwischen einem kontinuierlichen Signal und seinem abgetasteten,

diskreten Gegenpart beschrieben werden kann:

Page 62: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.5. FALTUNG KONTINUIERLICHER SIGNALE 63

Merksatz 1.5 (Abtastung eines kontinuierlichen Signals).

Wird ein kontinuierliches Signal x(t) in regelmäßigen Abständen Δtabgetastet, so kann das entstehende diskrete Signal x[n] mittels der Aus-blendeigenschaft des Dirac-Impulses beschrieben werden:

x[n] =

∫+∞

−∞

x(t) · δ(t− nΔt) dt, n ∈ Z.

1.5.2 Faltung

In gleicher Weise wie über die diskrete Deltafunktion δ[n] durch Verschiebungund Skalierung jeder andere Impuls abgebildet werden kann, kann dies imkontinuierlichen Fall über den Dirac-Impuls δ(t) geschehen. Damit wird esanalog zum diskreten Fall möglich, ein kontinuierliches Signal als Kombinationvon Impulsen aufzufassen. In diesem Signal →

Kombination vonImpulsen

Zusammenhang können die für diskreteSignale gemachten Überlegungen aufgegriffen und auf kontinuierliche Signaleübertragen werden. So kann auch im kontinuierlichen Fall ein lineares SystemS über seine Impulsantwort hS(t) eindeutig beschrieben werden:

δ(t)→ S → hS(t)

Das Ausgangssignals y(t) eines linearen Systems S kann dementsprechendüber die Faltung des Eingangssignals x(t) mit der Impulsantwort hS(t) desSystems bestimmt werden. Im kontinuierlichen Fall ist die Faltung dabei wiefolgt definiert:

Definition 1.28 (Faltung kontinuierlicher Signale).

Seien die kontinuierlichen Signale x(t) und h(t) gegeben. Dann ist dieFaltung x(t) ∗ h(t) der beiden Signale definiert durch:

y(t) =

∫+∞

−∞

h(j) · x(t− j) dj

Diese Definition ist damit das kontinuierliche Pendant zur Definition 1.25.

Analog elementarenImpulsantworten

können mittels des Dirac-Impulses auch die in Abschnitt 1.4.2 beschrie-benen elementaren Impulsantworten nachvollzogen werden:

Identität: x(t) ∗ δ(t) = x(t)

Verstärkung: x(t) ∗ (k · δ(t)) = k · x(t)

Verzögerung: x(t) ∗ δ(t+ s) = x(t+ s)

Echo (Beispiel): x(t) ∗ (δ(t) + 0.5 · δ(t+ 3)) = x(t) + 0.5 · x(t+ 3)

usw.

Page 63: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

64 KURSEINHEIT 1. GRUNDLAGEN DER SIGNALVERARBEITUNG

Es ist zu erkennen, wie die zuvor für den diskreten Fall beschriebenen Methodenund Konzepte im Wesentlichen 1-zu-1 für den kontinuierlichen Fall übernommenwerden können. Dies ist insofern bemerkenswert, da der zuvor beschriebeneDirac-Impuls eben keine 1-zu-1-Übertragung der diskreten Deltafunktion fürdie Verwendung mit kontinuierlichen Signalen ist.

Der letzte Abschnitt dieser Kurseinheit vermittelte Ihnen einen Eindruck davon,wie die in dieser Kurseinheit vornehmlich für diskrete Signale beschriebenen Me-thoden und Konzepte für kontinuierliche Signale formuliert werden können. Derzentrale Aspekt war diesbezüglich die Dirac-Funktion, die das kontinuierlicheGegenstück zur diskreten Deltafunktion ist. Insbesondere die Ausblendeigen-schaft des Dirac-Impulses, mit der einzelne Werte eines kontinuierlichen Signalsisoliert werden können, ist in diesem Zusammenhang von großer Bedeutung. Siebildet die Grundlage dafür, dass auch im kontinuierlichen Fall lineare Systemeüber ihre Impulsantwort vollständig beschrieben werden können, da sich jedesSignal als eine Kombination von verschobenen und skalierten Dirac-Impulsendarstellen lässt. Darüber hinaus ermöglicht die Ausblendeigenschaft die ma-thematische Beschreibung der Analog-Digital-Wandlung – also der Beziehungzwischen einem kontinuierlichen Signal und seinem diskreten Gegenstück.

Page 64: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

Literaturverzeichnis

[Smi02] Smith, Steven: Digital Signal Processing: A Practical Guide forEngineers and Scientists. Book and CD ROM. Newnes, 2002. – ISBN075067444X

71

Page 65: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

Dr. Jens Garstka, Prof. Dr. Gabriele Peters

Kurs 01699 Interaktive Systeme II: Konzepte und Methoden bildbasierter 3D-Rekonstruktion LESEPROBE

mathematik und

informatik

Page 66: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

Interaktive Systeme II:Konzepte und Methoden bildbasierter 3D-RekonstruktionKurseinheit 1

Geometrische Grundlagen

Jens Garstka und Gabriele Peters

©2016 FernUniversität in Hagen Alle Rechte vorbehalten 01699-01-WS16/17Fakultät für Mathematik und Informatik

Page 67: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

12

Bildquelle(n): Wellenbrecher auf Norderney, Jens Garstka, 2009

Page 68: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

Vorwort

Es freut uns, Sie als Teilnehmerinnen und Teilnehmer des Kurses 01699 – In-teraktive Systeme II begrüßen zu dürfen. Der vorliegende Kurs hat das Ziel,Ihnen die zentralen Konzepte und Methoden bildbasierter 3D-Rekonstruktionzu vermitteln. Sie werden Verfahren kennen lernen, mit deren Hilfe sich einedreidimensionale, virtuelle Darstellung einer realen Szene aus einer Reihe vonBildern errechnen lässt. In den einzelnen Kurseinheiten wird Ihnen ein voll-ständiger Prozess, beginnend mit der Aufnahme von Bildern bis hin zu einemfertigen 3D-Modell, vermittelt.

Da das Fundament der gesamten Thematik vor allem auf linearer Algebrabasiert und die Kursvoraussetzungen nur gewisse mathematische Grundlagenvoraussetzen, erhalten Sie in der ersten Kurseinheit zunächst eine ausführlicheEinführung in die mathematischen Repräsentationen der benötigten Elemente.Beginnend mit der Geometrie in der Ebene lernen Sie die homogene Darstel-lung von Punkten und Geraden kennen. Dabei werden zudem erste, durchMatrizen repräsentierte, geometrische Umformungen vorgestellt und Begriffewie Fluchtpunkt, Horizont, Parallelität oder Kollinearität definiert. Diese Be-griffe beschreiben Eigenschaften unterschiedlicher geometrischer Räume. BeimÜbergang von der Ebene in den dreidimensionalen Raum werden die bishergelernten Begriffe eingeordnet und ergänzt. Zum Abschluss der ersten Kursein-heit wird ein mathematisches Modell zur Abbildung dreidimensionaler Punkteauf eine zweidimensionale Bildebene vorgestellt – das Modell der Lochkamera.Bei dieser Abbildung gehen Informationen verloren, die eine spätere Rückrech-nung, die sogenannte Rekonstruktion, so kompliziert machen.

Da eine Rekonstruktion aus einer einzelnen Abbildung in Ermangelung vonInformationen nicht möglich ist, wird in Kurseinheit 2 eine zweite Kamera hin-zugenommen und die sogenannte Epipolargeometrie eingeführt. Sie beschreibtdurch eine Matrix die Beziehung von Punkten zwischen den Abbildungen zwei-er Kameras. Wenn sich hinreichend viele Punkte finden lassen, die in beidenAbbildungen das gleiche Element in der Szene repräsentieren, lässt sich die-se Matrix, die sogenannte Fundamentalmatrix, approximieren. Damit sind Sieeinen kleinen Schritt auf dem Weg zu einem 3D-Modell der abgebildeten Szeneweiter, denn über die Fundamentalmatrix lassen sich erste, aber noch mehr-deutige Kameramatrizen beschreiben. Die Mehrdeutigkeit entsteht, da sichdurch die Fundamentalmatrix zwar die Lage und Ausrichtung der Kamerasuntereinander ausdrücken lässt, aber die absolute Position im Raum und das„verwendete Objektiv“, welches Eigenschaften wie die Brennweite besitzt, nochunbekannt sind. Die zuletzt genannten intrinsischen Parameter der Kameras

3

Page 69: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

werden mit Verfahren bestimmt, die Ihnen im letzten Abschnitt der 2. Kurs-einheit vorgestellt werden.

Sobald die Kameramatrizen bestimmt wurden, lassen sich die Punkte im Raumaus den Schnittpunkten der zurückgerechneten Projektionsstrahlen aus beidenKameras bestimmen – zumindest theoretisch. Praktisch sind schon in der Fun-damentalmatrix Fehler enthalten, die dazu führen, dass sich die Strahlen imRaum faktisch nie schneiden. Daher werden zu Beginn der 3. Kurseinheit Mög-lichkeiten vorgestellt, wie ein „guter“ Punkt irgendwo zwischen den beidenStrahlen eindeutig bestimmt werden kann. Diese sogenannte Triangulierungerzeugt eine Wolke aus 3D-Punkten. Im zweiten Abschnitt wird diese Punkt-wolke zu einem zusammenhängenden Dreiecksnetz verknüpft und schließlichüber Texturen, die aus den ursprünglichen Bildern entnommen werden, zu ei-nem 3D-Modell geformt. Wie die Texturierung funktioniert und wie sich künst-liche Lichtquellen auf das Modell auswirken, ist Thema des letzten Abschnittsdieser Kurseinheit.

Eigentlich, so sollte man meinen, ist damit der anfänglich angesprochene Pro-zess beendet. Das stimmt im Grunde genommen auch. Allerdings ist das Modellbis zu diesem Punkt zum einen etwas „einfach“ und zum anderen etwas „ein-seitig“. Einfach ist das Modell, weil vor allem in Kurseinheit 2 angenommenwird, dass die Menge der mindestens benötigten Punkte zur Bestimmung derFundamentalmatrix manuell eingegeben wird. Da diese Menge gerade mal 8Elemente enthalten muss, wäre das in Kurseinheit 3 berechnete Dreiecksnetzentsprechend sehr einfach. Einseitig ist das Modell, da die beiden Bilder keinenallzu großen Winkel zueinander haben dürfen, weil sonst zu wenig gemeinsa-me Punkte vorhanden sind. Diese beiden Themen greift Kurseinheit 4 auf. Imersten Abschnitt wird gezeigt, wie sich automatisch interessante Punkte in denBildern bestimmen und abgleichen lassen. Dadurch ist es möglich, deutlich de-tailliertere Netze zu erzeugen. Im zweiten Abschnitt wird beschrieben, wie sichSequenzen von Bildern zu einer Punktwolke mit vielen Kameras kaskadierenlassen und auf diesem Wege auch geschlossene Modelle erzeugt werden kön-nen. Im abschließenden Abschnitt werden diverse Verfahren vorgestellt, mitdenen sich die Fehler, die sich von den Fundamentalmatrizen über die Bestim-mung der inneren Kameraparameter, die Triangulierung der 3D-Punkte unddie Kombination von Bildsequenzen aufsummiert haben, gleichmäßig verteilenlassen.

Hagen im Mai 2016

Jens Garstka, Gabriele Peters

Page 70: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

Noch ein Hinweis zum Sprachgebrauch. Da wissenschaftliche Texte und Lehr-texte möglichst objektiv formuliert sein sollten, und da es sich bei der Annah-me, die Verwendung des einen Geschlechts schließe das andere automatisch ein,um einen Irrtum handelt, ist der vorliegende Text weder in ausschließlich fe-mininer noch in ausschließlich maskuliner Form verfasst. Vielmehr verwendenwir im Wechsel mal die männliche, mal die weibliche Form und orientieren unsim Übrigen an den Empfehlungen zur „Gleichbehandlung im Sprachgebrauch“der Gesellschaft für Informatik e.V. von 1999 und an den „Richtlinien für einennicht-sexistischen Sprachgebrauch“ der UNESCO von 1993.

Page 71: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

Kurseinheit 1

Geometrische Grundlagen

Inhaltsübersicht1.1 Projektive Geometrie . . . . . . . . . . . . . . . . . . . . 17

1.1.1 Geometrie in der Ebene . . . . . . . . . . . . . . . . . . 18

1.1.2 Planare projektive Transformationen . . . . . . . . . . . 24

1.1.3 Hierarchie von Transformationen . . . . . . . . . . . . . 26

1.1.4 Wiedergewinnung metrischer und affiner Eigenschaften . 34

1.1.5 Der dreidimensionale projektive Raum . . . . . . . . . . 39

1.2 Kegelschnitte, Kegel und Quadriken . . . . . . . . . . . 48

1.2.1 Kegelschnitte . . . . . . . . . . . . . . . . . . . . . . . . 48

1.2.2 Metrische Rektifizierung mit dualem Kegelschnitt . . . . 54

1.2.3 Quadriken . . . . . . . . . . . . . . . . . . . . . . . . . . 58

1.3 Kamera . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

1.3.1 Die Lochkamera . . . . . . . . . . . . . . . . . . . . . . 63

1.3.2 Exkurs Koordinatensysteme . . . . . . . . . . . . . . . . 65

1.3.3 Die projektive Kamera . . . . . . . . . . . . . . . . . . . 66

1.4 Selbsttestaufgaben . . . . . . . . . . . . . . . . . . . . . . 73

1.5 Lösungen der Selbsttestaufgaben . . . . . . . . . . . . . 77

13

Page 72: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

14 KURSEINHEIT 1. GEOMETRISCHE GRUNDLAGEN

Lernziele:Ziel dieser Kurseinheit ist die Vermittlung mathematischer Grund-lagen der Geometrie von zwei Ansichten einer Szene. Sie lerneneinen Auszug aus der projektiven Geometrie kennen. Dabei wer-den Begriffe wie Fluchtpunkt, Horizont, Parallelität oder Kolli-nearität aus der euklidischen Geometrie entnommen und gezeigt,wie sie in anderen geometrischen Räumen, insbesondere im pro-jektiven Raum, abgebildet werden. Besonders wichtig in diesemKontext ist der Begriff der Homographie. Im Anschluss lernenSie das Modell der Lochkamera kennen, das die Grundlage fürdie projektive Kamera darstellt. Auf Basis dieses Kameramodellswird gezeigt, wie Punkte im dreidimensionalen Raum auf eine Bil-debene projiziert werden, und wie sich diese Abbildung mithilfeder Kameramatrix darstellen lässt.

Hinweis: Der Kurs nutzt in großen Teilen das Buch „Multiple View Geome-try“ von Richard Hartley und Andrew Zisserman [HZ03] und orientiert sichdaran strukturell vor allem in den ersten beiden Kurseinheiten. Sofern nichtanders angegeben, wird diese Quelle verwendet. Auf andere Quellen wird anentsprechenden Stellen direkt im Text verwiesen.

Die folgenden Abschnitte dieser Kurseinheit enthalten viel Stoff aus der linea-ren Algebra. Es wird versucht, die Bezeichner innerhalb der Formeln möglichstkonsistent zu verwenden. Daher werden die nachfolgend aufgelisteten Bezeich-ner konsequent im gesamten Kurs verwendet.

x Fett geschriebene Variablen symbolisieren 3-Vektoren. Fol-gend wird angenommen, dass es sich um Spaltenvektoren han-delt. Ein Zeilenvektor wird demnach immer als x� geschrie-ben. Die elementweise Darstellung des Vektors erfolgt durchdie Verwendung von runden Klammern:

x =

⎛⎜⎝x1

x2

x3

⎞⎟⎠

x1, x2, x3 Kursiv und klein geschriebene Variablen sind reelle Zahlen.Die Indizes kennzeichnen das i-te Element des Vektors x.

x Hierbei handelt es sich um einen 2-Vektor: x = (x1, x2)�

X Bei Kalligrafien handelt es sich um einen m-Vektor, mit m ≥4: X = (X 1, X 2, . . . , X m)�

Page 73: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

15

x.y Der Punkt beschreibt das innere Produkt (Skalarprodukt)zweier Vektoren:⎛⎜⎝x1

x2

x3

⎞⎟⎠ .

⎛⎜⎝y1

y2

y3

⎞⎟⎠ = x1y1 + x2y2 + x3y3

x × y Das Kreuz beschreibt das Kreuzprodukt zweier Vektoren:⎛⎜⎝x1

x2

x3

⎞⎟⎠ ×

⎛⎜⎝y1

y2

y3

⎞⎟⎠ =

⎛⎜⎝x2y3 − x3y2

x3y1 − x1y3

x1y2 − x2y1

⎞⎟⎠

H Groß geschriebene Variablen entsprechen Matrizen. Die ele-mentweise Darstellung einer Matrix erfolgt durch die Verwen-dung von eckigen Klammern:

H =

⎡⎢⎣h11 h12 h13

h21 h22 h23

h31 h32 h33

⎤⎥⎦

[x]× Hiermit wird eine sogenannte schiefsymmetrische Matrix ge-kennzeichnet. Mit der schiefsymmetrischen Matrix kann dasKreuzprodukt zweier Vektoren durch ein Produkt zwischeneiner Matrix und einem Vektor ersetzt werden. Es gilt:⎡⎢⎣x1

x2

x3

⎤⎥⎦×

=

⎡⎢⎣ 0 −x3 x2

x3 0 −x1

−x2 x1 0

⎤⎥⎦ mit [x]× = −[x]�×

Damit istx × y = [x]×y

Page 74: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

16 KURSEINHEIT 1. GEOMETRISCHE GRUNDLAGEN

A+ Hiermit wird eine sogenannte pseudoinverse Matrix gekenn-zeichnet. Inverse Matrizen lassen sich nur auf quadratischenMatrizen bilden. Die pseudoinversen Matrizen sind eine Ver-allgemeinerung inverser Matrizen für nichtquadratische Ma-trizen. Die Definition lautet:

Die n × m-Matrix A+ heißt pseudoinverse Matrix der m × n-Matrix A, genau dann, wenn

AA+A = A und A+AA+ = A+

Page 75: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.1. PROJEKTIVE GEOMETRIE 17

1.1 Projektive Geometrie

Lernziele:In diesem Abschnitt erhalten Sie eine Einführung in die Geometrieder Perspektive. In diesem Zusammenhang werden ausgehend vonder euklidischen Geometrie Begriffe wie Parallelität, Kollinearitätund Winkel eingeführt. Darauf aufbauend werden der affine undder projektive Raum eingeführt. Durch entsprechende Transfor-mationen lassen sich die Räume ineinander überführen. Dabei ge-hen jedoch einige Merkmale des euklidischen Raums verloren. Amprojektiven Raum werden Fluchtpunkte oder der Horizont (Ge-rade im Unendlichen) definiert und gezeigt, wie Sie zum Beispielmit parallelen Geraden im euklidischen Raum in Zusammenhangstehen. Einer der wichtigsten Begriffe ist in diesem Zusammen-hang die Homographie – eine Abbildung innerhalb und zwischenunterschiedlichen geometrischen Räumen.

Das 15. Jahrhundert ist die Zeit, in der ein italienischer Baumeisters mit demNamen Filippo Brunelleschi die damalige Welt der Architektur und Malerei aufden Kopf stellte, indem er die sogenannte Zentralperspektive Zentralperspektive’erfand’. Obwohldas Prinzip des Fluchtpunkts schon bei den Griechen und Römern bekanntwar, ging das Wissen über die Jahre verloren. Brunelleschi entdeckte die Prin-zipien der perspektivischen Zeichnung wieder und wandte sie an.

Zur Demonstration der Wirkung erstellte er eine perspektivisch gemalte Zeich-nung des Baptisteriums San Giovanni in Florenz. An der Position, von der ausdas Bild gemalt worden war, demonstrierte er die Genauigkeit der perspek-tivischen Darstellung, indem er eine versilberte Platte als Spiegel einsetzte,welcher der Betrachterin oder dem Betrachter die Rückseite der Holzplattemit dem Bild zeigte. Die Platte besaß ein Loch, durch das zunächst das Bap-tisterium San Giovanni sehen war. Dann wurde mit der anderen Hand derSilber-Spiegel auf Armeslänge zwischen Original und Bild gehalten.

Der Blick durch das Loch in den Spiegel offenbarte die Malerei, die in per-fekter Perspektive ausgearbeitet gewesen sein soll, so dass kein Unterschiedzwischen der gemalten Szene und dem eigentliche Bild des Gebäudes in Be-zug auf Form und Proportion festzustellen war. Die Abbildung 1.1 stellt dieVersuchsanordnung von Filippo Brunelleschi dar.

Mit diesem wiedergewonnenen Wissen war es nun möglich, perspektivisch kor-rekte, zweidimensionale Abbildungen der Umwelt zu gestalten. In der heutigenZeit ist jedes Foto eine derartige Abbildung der Umwelt. Die Motivation diesesKurses ist es, zu zeigen, wie aus diesen zweidimensionalen Abbildungen wiederdie ursprünglichen dreidimensionalen Objekte, wenn auch virtuell, rekonstru-iert werden können.

Page 76: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

18 KURSEINHEIT 1. GEOMETRISCHE GRUNDLAGEN

Abbildung 1.1: Brunelleschis Experiment. Mit einer bemalten Holzplatte und einem mitSilber beschichteten Spiegel lässt Filippo Brunelleschi 1413 eine perspektivische Zeich-nung des Baptisteriums San Giovanni in Florenz von Passanten testen.(Bild: [Atk08])

1.1.1 Geometrie in der Ebene

Bis zu einer vollständigen Rekonstruktion von dreidimensionalen Objekten auszweidimensionalen Bildern sind jedoch einige Schritte notwendig, die nicht oh-ne gewisse Grundlagen auskommen. Daher werden in den folgenden Abschnit-ten einige notwendige Grundbegriffe eingeführt.

Punkte

Typischerweise werden Punkte in der Ebene durch ein Koordinatenpaar x undy beschrieben, das sich als 2-Vektor

p =

(xy

), mit p ∈ R

2

darstellen lässt. Eine alternative Darstellung dieses 2-Vektors sind die soge-nannten homogenen Koordinatenhomogenen

Koordinaten. Bei den homogenen Koordinaten erhält der

Vektor eine 3. Komponente. Diese dritte Komponente ist der von 0 verschie-dene Skalierungsfaktor k. Die homogenen Vektoren haben die Form:

p =

⎛⎜⎝kxkyk

⎞⎟⎠ =

⎛⎜⎝xyw

⎞⎟⎠ , mit p ∈ P2.

Ein Vektor p im R2 besitzt eine Äquivalenzklasse1 Vektoren im P

2, für die gilt:(x/w, y/w)� = (x, y)�. Die Menge aller Äquivalenzklassen dieserprojektiver Raum

der EbeneVektoren ist

der projektive Raum der Ebene, kurz P2.

1 Eine Äquivalenzklasse besteht aus einer Menge von Daten, welche als äquivalent bezüg-lich einer Relation angesehen werden. Die Relation ist in diesem Fall die Beziehung zwischenden homogenen und inhomogenen Koordinaten. D. h. alle (kx ky k)� ∈ P

2 werden bezüglicheines (x y)� ∈ R

2 als äquivalent betrachtet und bilden die Äquivalenzmenge.

Page 77: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.1. PROJEKTIVE GEOMETRIE 19

Damit ist die einfachste Form einen Punkt in der Ebene als homogene Koor-dinaten darzustellen (x, y, 1)�.

Um sich den Zusammenhang zwischen den Koordinaten in der Ebene des R2

und den Koordinaten im zugehörigen projektiven Raum P2 bildlich vorzustel-

len, zeigen die in Abbildung 1.2 dargestellten Graphen einen Punkt in beidenRäumen.

(a) (b)

Abbildung 1.2: Punkt in der Ebene. In Abbildung (a) ist der Punkt p und der zugehörigeVektor (x, y)� im R

2 dargestellt. Abbildung (b) zeigt den gleichen Punkt im projektivenRaum P

2 mit den homogenen Koordinaten (x, y, 1)�. Die gestrichelte Linie stellt allePunkte in homogenen Koordinaten dar, die dem Punkt p entsprechen.

Der Graph in 1.2 (a) zeigt einen Punkt p und den zugehörigen Vektor (x, y)�

im R2. In Abbildung 1.2 (b) ist der gleiche Punkt in homogenen Koordinaten

p = (x, y, 1)� im P2 dargestellt. Die gestrichelte Linie stellt die Äquivalenz-

klasse aller im P2 zu p korrespondierenden Punkte dar.

Isoliert betrachtet stellt die blaue Ebene für z = 1 aus Abbildung 1.2 (b), dieparallel zur x-y-Ebene liegt, die Ebene aus Abbildung 1.2 (a) dar. Dadurchwird schon ersichtlich, warum dieser Raum die Bezeichnung projektiver Raumhat: alle Punkte entlang der gestrichelten Linie werden bezüglich des Ursprungsauf einen Punkt p auf einer beliebigen Ebene z �= 0 abgebildet, projiziert.

Geraden

In der Schulmathematik wird eine Gerade oft durch eine explizite Funktionin Abhängigkeit von x in der Form f(x) = ax + b = y beschrieben. Damitlässt sich jedoch keine Gerade parallel zur y-Achse beschreiben. Daher implizite

Geradengleichungwird

hier eine allgemeinere Form der Geradengleichung in impliziter2 SchreibweiseF (x, y) = ax + by + c = 0 verwendet.

Durch die Parameter a, b und c können alle Geraden im R2 beschrieben wer-

den. In Abbildung 1.3 (a) ist exemplarisch eine Gerade l für die Parametera = 1, b = 2, c = −4 dargestellt. Dabei lassen sich a, b und c mit einem

2Wenn eine Funktion durch eine Gleichung der Form F (x, y) = 0 gegeben ist, sprichtman von einer impliziten Funktion.

Page 78: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

20 KURSEINHEIT 1. GEOMETRISCHE GRUNDLAGEN

(a) (b)

Abbildung 1.3: Gerade in der Ebene. In Abbildung (a) ist die Gerade l dargestellt. Abbil-dung (b) zeigt die gleiche Gerade im projektiven Raum P

2, repräsentiert durch eine Ebe-ne, die über den Ursprung des Koordinatensystems und den Normalenvektor l = (a, b, c)�

aufgespannt wird.

Skalierungsfaktor k �= 0 multiplizieren – die resultierende Gerade ist immerdie gleiche.

Wie aber sieht die homogene Repräsentation dieser Geraden im projektivenRaum aus? Während ein Punkt im R

2 durch eine Gerade im P2 dargestellt

wurde, wird eine Gerade im R2 durch eine Ebene im P

2 repräsentiert. Und zwardurch die Ebene, die über den Normalenvektor l = (a, b, c)� und den Ursprungaufgespannt wird. Die zugehörige Ebenengleichung lautet dann ax + by + cz =0. Eine solche Ebene, die in Abbildung 1.3 (b) schematisch dargestellt wird,schneidet die Ebene für z = 1 in einer Geraden, die genau der Geraden ausAbbildung 1.3 (a) entspricht. D. h. auch hier findet eine Abbildung (Projektion)bezüglich des Ursprungs statt.

Verwirrend ist zunächst, dass sowohl die Gerade, als auch der Punkt durch ein3-Tupel im P

2 beschrieben werden. Der Zusammenhang zwischen Punkt undGerade im P

2 wird später noch aufgelöst. Dazu müssen jedoch im Vorfeld nochein paar Grundlagen geschaffen werden.

Schnitt zwischen Punkt und Gerade

Ein Punkt (x, y)� liegt genau dann auf einer Geraden, die durch (a, b, c)�

beschrieben wird, wenn ax + by + c = 0. Damit kann die Gleichung als Vektor-Produkt (x, y, 1)(a, b, c)� = 0 dargestellt werden. Die Gleichung ist auch für(kx, ky, k)(a, b, c)� gültig, so dass sich auch Punkte durch die Äquivalenzklasseder homogenen Vektoren (x, y, z)� beschreiben lassen.

Definition 1.1 (Punkt auf Gerade – 2D).

Im projektiven Raum der Ebene P2 liegt ein Punkt x genau dann auf der

GeradenPunkt auf Gerade l, wenn gilt:x.l = 0

Page 79: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.1. PROJEKTIVE GEOMETRIE 21

Schnitt zweier Geraden

Zwei Geraden im R2 haben, sofern sie nicht parallel sind, immer einen ein-

deutigen Schnittpunkt. Sei x = l × l′ dieser gesuchte Schnittpunkt von zweiGeraden l und l′.

Um zu zeigen, dass diese Aussage richtig ist, werden die beiden Geraden zu-nächst getrennt betrachtet. Damit muss x auf beiden Geraden liegen und esgilt: l.x = l′.x = 0

Wird x durch l × l′ ersetzt, ergibt sich l.(l × l′) = l′.(l × l′) = 0. Durch dassogenannte Spatprodukt3 kann die Gleichung zu l′.(l × l) = l.(l′ × l′) = 0umgestellt werden. Da das Kreuzprodukt eines Vektors mit sich selbst derNullvektor ist stimmt die o. g. Aussage.

Definition 1.2 (Schnitt zweier Geraden – 2D).

Im projektiven Raum der Ebene P2 ist der Schnittpunkt zweier Geraden

l und l′ Schnitt zweierGeraden

:x = l × l′

Gerade aus zwei Punkten

Bisher wurde gezeigt, wie bestimmt werden kann, ob ein Punkt auf einer Ge-raden liegt und wo sich zwei Geraden im R

2 schneiden. Gesucht ist nun eineGerade, die durch die beiden Punkte x und x′ verläuft. In beiden Fällen giltx�l = x′�l = 0. Analog zum Schnitt zweier Geraden gilt dann l = x × x′. Dieslässt sich entsprechend durch Einsetzen und Spatprodukt analog zum Schnittzweier Geraden zeigen.

Definition 1.3 (Gerade aus zwei Punkten – 2D).

Im projektiven Raum der Ebene P2 ist die Gerade aus zwei Punkten x

und x′ Gerade aus zweiPunkten

:l = x × x′

Dualität im P2

Wer allein die letzten drei Abschnitte betrachtet, sollte schon bemerkt haben,dass es bestimmte Dualitäten im P

2 gibt. Zum Beispiel ist die Verwendungvon Geraden und Punkten symmetrisch, da sowohl x�l = 0 als auch l�x = 0gilt. Zudem sind die Prinzipien für „Kreuzprodukt zweier Geraden ist Schnitt-punkt“ und „Kreuzprodukt zweier Punkte ist Gerade“ nahezu identisch.

3Mit dem Spatprodukt gilt x.(y × z) = y.(z × x) = z.(x × y)

Page 80: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

22 KURSEINHEIT 1. GEOMETRISCHE GRUNDLAGEN

Merksatz 1.1 (Dualität im P2). Zu jedem Theorem des P

2 gibt es einkorrespondierendes Theorem, das sich durch Austausch von Geraden undPunkten ergibt.

Parallelität

Wann sind zwei Geraden parallel? In der Euklidischen Geometrie wird oftmalsdie folgende Definition verwendet:

Definition 1.4 (Parallele Geraden im R2).

Zu einer Geraden l und zu einem nicht auf l liegenden Punkt x gibtes genau eine GeradeParallele Geraden

im R2

l′, die durch x läuft und keinen gemeinsamen

Schnittpunkt mit l hat.Die Geraden l und l′ sind parallel.

Umgangssprachlich wird oft die Formulierung verwendet, dass zwei Geradenparallel sind, wenn sie sich „im Unendlichen“ schneiden. Diese Aussage be-kommt nachfolgend sogar einen Sinn, wenn dazu der projektive Raum be-trachtet wird.

Gegeben sind zwei parallele Geraden ax+by+c = 0 und ax+by+c′ = 0. Dieselassen sich als l = (a, b, c) und l′ = (a, b, c′) beschreiben. Durch Anwendungder Definition 1.2 ist der Schnittpunkt:

x = l × l′ =

⎛⎜⎝bc′ − cbca − ac′

ab − ba

⎞⎟⎠ = (c′ − c)

⎛⎜⎝ b−a0

⎞⎟⎠Da der Skalierungsfaktor (c′ − c) nur die Äquivalenzklasse ein und desselbenSchnittpunktes beschreibt, spielt er keine Rolle.

Soll nun der korrespondierende Schnittpunkt im R2 bestimmt werden, zeigt

sich, dass dieser Punkt bei (b/0, −a/0) liegt. Es gibt also keine reellwertige Lö-sung. InformellSchnittpunkt

zweier Geraden imUnendlichen

entspricht dies jedoch der o. g. Formulierung, dass sich paralleleGeraden im unendlichen schneiden.

Hinweis: Bisher wurden zum einfacheren Verständnis die Elemente der homo-genen 3-Vektoren mit x, y und z, beziehungsweise a, b und c bezeichnet. Umnachfolgend eine einheitliche Benennung der Variablen zu verwenden, die zu-dem eine bessere Zuordnung der Vektorelemente erlaubt, werden die Elementeeines Vektors den gleichen Buchstaben verwenden und mit Indizes versehen:

x =

⎛⎜⎝x1

x2

x3

⎞⎟⎠ , bzw. l =

⎛⎜⎝l1l2l3

⎞⎟⎠

Page 81: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.1. PROJEKTIVE GEOMETRIE 23

Fluchtpunkte und Gerade im Unendlichen

Alle Punkte x ∈ P2 mit x3 �= 0 lassen sich auf Punkte im R

2 abbilden. Dagegenfunktioniert das bei Punkten mit x3 = 0 nicht. Diese Punkte ideale Punkte /

Fluchtpunktewerden ideale

Punkte, Punkte im Unendlichen oder einfach nur Fluchtpunkte genannt.

Die Menge aller Punkte mit (x1, x2, 0)� ergibt die Gerade im Unendlichen Gerade imUnendlichen /Horizont

,auch Horizont genannt. Diese Gerade ist l∞ = (0, 0, 1)�. Sie entspricht also imP

2 der Ebene, die von den ersten beiden Koordinatenachsen aufgespannt wird,weil l∞ deren Normalenvektor ist.

Abbildung 1.4: Fluchtpunkt und Gerade im Unendlichen. Gegeben sind die beiden paral-lelen Geraden l und l′. Sie sind durch die beigen Ebenen im P

2 und die schwarzen Linienauf der Ebene z = 1 schematisch dargestellt. Die Ebenen schneiden sich natürlich nichtnur, wie vereinfacht dargestellt, im Ursprung, sondern haben eine gemeinsame Schnitt-gerade auf der durch (1 0 0)� und (0 1 0)� im P

2 aufgespannten Ebene. DieseSchnittgerade wird durch die feine rote Linie repräsentiert. Der Richtungsvektor dieserGeraden entspricht einem möglichen Fluchtpunkt. Alle Punkte der durch (1 0 0)� und(0 1 0)� aufgespannten Ebene ergeben die Gerade im Unendlichen.

An Abbildung 1.4 lassen sich diese Zusammenhänge noch einmal zeigen. Diezwei parallelen Geraden l und l′ werden durch die beigen Ebenen schematischdargestellt. Die Schnittmenge der beiden Ebenen ist die feine rote Geradedurch den Ursprung. Sie liegt auf der durch (1 0 0)� und (0 1 0)� im P

2

aufgespannten Ebene für x3 = 0, also auf der Geraden im Unendlichen l∞.Die Richtung jeder Schnittgeraden entspricht genau einem Fluchtpunkt. Dadie Richtung unabhängig von der Länge des Vektors (x1, x2, 0)� ist, wird jederFluchtpunkt nur durch das Verhältnis der Koordinaten x1 : x2 beschrieben.Diese beiden Koordinaten beschreiben zudem im R

2 die Richtung des idealenPunktes, respektive der Geraden im R

2.

Durch die bis hierhin erarbeiteten Grundlagen können nachfolgend die ersteneinfachen projektiven Transformationen und die zugehörigen Begriffe beschrie-ben werden.

Page 82: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

24 KURSEINHEIT 1. GEOMETRISCHE GRUNDLAGEN

1.1.2 Planare projektive Transformationen

Homographie

Die Einführung in projektive Transformationen beginnt mit einer Definition:

Definition 1.5 (Homographie).

Eine Homographie ist eine umkehrbare Abbildung h von P2 auf sich

selbst, derartHomographie , dass drei Punkte x1, x2 und x3 genau dann auf einerGeraden liegen, wenn h(x1), h(x2) und h(x3) ebenfalls auf einer Geradenliegen.

Algebraisch ist die o. g. Definition eine Abbildung h : P2 → P2, zu der eine

invertierbare 3 × 3-Matrix H existiert, so dass für jeden Vektor x gilt:

h(x) = Hx

Das lässt sich wie folgt zeigen: Seien x1, x2 und x3 Punkte auf der Geradenl. Dann gilt für alle Punkte xi : l�xi = 0, mit i = 1, 2, 3. Um die Matrix Hund ihre inverse Matrix H−1 ergänzt4, gilt l�H−1Hxi = 0, wobei Hxi die dreiPunkte sind.

Die inverse transponierte Matrix 5 H−� ist (H−1)�. D. h.Homographie-matrix

H−�l ist die kor-respondierende Gerade, auf der sich die drei Punkte befinden. Die Matrix Hwird Homographiematrix genannt.

Synonyme für Homographie sind auch Kollineation, projektive Transformationund Projektivität.

Projektive Transformation von Punkten

Definition 1.6 (Projektive Transformation von Punkten – 2D).

Eine projektive Transformation von Punkten ist eine lineare Trans-formation von homogenenprojektive

Transformationvon Punkten

3-Vektoren durch eine invertierbare 3 × 3-Homographiematrix ⎛⎜⎝x′

1

x′2

x′3

⎞⎟⎠ =

⎡⎢⎣h11 h12 h13

h21 h22 h23

h31 h32 h33

⎤⎥⎦⎛⎜⎝x1

x2

x3

⎞⎟⎠ ,

beziehungsweisex′ = Hx

4Eine quadratische Matrix A, die mit ihrer inversen Matrix A−1 multipliziert wird, ergibtdie sogenannte Einheitsmatrix oder Identitätsmatrix, kurz Identität. Die Multiplikation einerMatrix oder eines Vektors mit der Einheitsmatrix verändert die Matrix beziehungsweise denVektor nicht.

5Es ist egal, ob die Matrix zuerst invertiert und dann transponiert wird oder umgekehrt.Die Inverse der transponierten Matrix entspricht der Transponierten der inversen Matrix

Page 83: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.1. PROJEKTIVE GEOMETRIE 25

Da homogene 3-Vektoren skaliert werden können, dabei aber immer den glei-chen Punkt repräsentieren, kann auch die Matrix durch einen von Null ver-schiedenen Skalar multipliziert werden, ohne dass sich die Abbildung verän-dert. Damit ist das Verhältnis der 9 Matrix-Elemente untereinander ausschlag-gebend. Somit gibt es für die Matrix insgesamt 8 Freiheitsgrade. Die Anzahlder Freiheitsgrade wird nachfolgend eine Rolle bei der Einordnung der geome-trischen Räume und bei der Bestimmung der Homographiematrix spielen.

Projektive Transformation von Geraden

Definition 1.7 (Projektive Transformation von Geraden – 2D).

Die projektive Transformation von Geraden ist, analog zur projek-tiven Transformation von Punkten projektive

Transformationvon Geraden

, eine lineare Transformation von ho-mogenen 3-Vektoren durch eine invertierbare 3 × 3-Homographiematrix

l′ = H−�l.

Diese Definition lässt sich folgendermaßen motivieren: Bei der Beschreibungder Homographie wurde bereits gezeigt, dass l�H−1Hxi = 0 gilt, wobei x′ =Hx die projektive Transformation von Punkten ist. Entsprechend verbleibtl′ = H−T l für die korrespondierende Gerade.

Bislang reiht sich im Wesentlichen eine Definition an die nächste, mit demErgebnis, dass wir mithilfe einer Homographiematrix Transformationen vonPunkten und Geraden berechnen können. Es wurde jedoch noch nicht ange-sprochen, wofür diese Transformationen benötigt werden. Dazu soll an dieserStelle ein kleines Beispiel folgen.

Die Abbildung 1.5 zeigt zwei unterschiedliche Ebenen mit der Abbildung derbeiden Punkte x und x′ bezüglich des Punktes c, der Kameraposition.

Abbildung 1.5: Projektion von Punkten. Die Punkte x und x′ werden bezüglich Punktc (siehe Abschnitt 1.3) auf unterschiedlichen Ebenen anders abgebildet.

Page 84: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

26 KURSEINHEIT 1. GEOMETRISCHE GRUNDLAGEN

Angenommen die Anordnung der Ebenen ist bekannt. Dann lassen sich mithilfeder Homographiematrix alle Elemente der einen Ebene auf die andere Ebeneabbilden. Dies wird in den vier Bildern aus Abbildung 1.6 gezeigt.

(a) (b)

(c) (d)

Abbildung 1.6: Projektive Transformation. Abbildung (a) zeigt das Originalfoto mit denperspektivisch (korrekt) verzerrten Oberflächen der Bücher. Durch die Anwendung vonHomographien passend zur Ausrichtung der jeweiligen Buchdeckel, entstehen die Bilder(b) bis (d).

1.1.3 Hierarchie von Transformationen

Anhand der Abbildung 1.6 (a) lassen sich einige Merkmale des projektivenRaumes zeigen. So kann zum Beispiel im Allgemeinen angenommen werden,dass Bücher eine rechteckige Grundform besitzen. Das bedeutet, dass die ge-genüberliegenden Kanten parallel und alle vier Innenwinkel rechte Winkel sind.

Betrachtet man die drei Polygone6 über den Buchdeckeln in Abbildung 1.6 (a),stellt man fest, dass dies bei keinem der Polygone zutrifft. Warum?

6Polygone sind Flächen, die durch die Linien von Vielecken eingeschlossen werden. Daseinfachste Polygon ist ein Dreieck. Die Polygone im Beispiel sind allesamt Vierecke.

Page 85: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.1. PROJEKTIVE GEOMETRIE 27

Die projektive Geometrie ist die allgemeinste und am wenigsten restriktiveForm in der Hierarchie der grundlegenden Geometrien. Diese Hierarchie ist:

• euklidische Geometrie

• Ähnlichkeit (engl. similarity)

• affine Geometrie

• projektive Geometrie

Jede dieser Geometrien InvariantenplanarerGeometrien

weist Eigenschaften auf, die durch Transformationeninnerhalb dieser Geometrien erhalten bleiben. Diese sogenannten Invariantenplanarer Geometrien sind:

• Längenmaße Längenmaße

Längenmaße oder Distanzen werden über die Norm ‖x‖ bestimmt. DieNorm wird über die inhomogenen Koordinaten bestimmt!

• Winkel Winkel

Winkel werden mit dem Skalarprodukt berechnet. Eine Transformationist winkeltreu, falls

x.y‖x‖ · ‖y‖

=x′.y′

‖x′‖ · ‖y′‖

gilt. Auch hier werden die inhomogenen Koordinaten verwendet!

• Kollinearität Kollinearität

Kollinearität ist die Eigenschaft gemäß derer Punkte, die vor der Trans-formation auf einer Geraden lagen, auch nach der Transformation nochauf einer Geraden liegen.

• Parallelität Parallelität

Zwei Geraden sind parallel, wenn sie sich „im Unendlichen“ schneiden.

• Teilverhältnisse Teilverhältnisse

Teilverhältnisse sind die Abstandsverhältnisse von drei Punkten auf einerGeraden. Diese Verhältnisse sollten vor und nach der Transformationgleich sein.

• Kreuzverhältnis Kreuzverhältnis

Das Kreuzverhältnis lässt sich am einfachsten am 1-dimensionalen pro-jektiven Raum zeigen. Gegeben sind 4 Punkte x1, x2, x3 und x4 auf einerGeraden. Durch eine Projektion der Punkte auf eine zweite, nicht paral-lele Gerade, verändert sich das Teilverhältnis der projizierten Punkte x′

1,x′

2, x′3 und x′

4 (siehe Abbildung 1.7). Betrachtet man jedoch ein spezielles„Verhältnis der Verhältnisse“, das sogenannte Kreuzverhältnis, so stimmtdieses für die ursprünglichen Punkte x1 bis x4 und für die projiziertenPunkte x′

1 bis x′4 überein. Mit anderen Worten: Das Kreuzverhältnis ist

invariant unter obiger Projektion.

Page 86: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

28 KURSEINHEIT 1. GEOMETRISCHE GRUNDLAGEN

x1 x2 x3 x4

x′1

x′2

x′3

x′4

Abbildung 1.7: Kreuzverhältnis – Im projektiven Raum sind Längen und Teilverhältnissekeine Invarianten. Während die Abstände von x1 bis x4 immer gleich sind, sind dieAbstände zwischen den Punkten x′

1 bis x′4 einer projektiven Transformation nicht mehr

gleich.

Das Kreuzverhältnis ist dabei definiert als:

Cross(x1, x2, x3, x4) =|x1x2||x3x4|

|x1x3||x2x4|,

wobei

|xixj| = det

[xi1 xj1

xi2 xj2

].

Eine alternative, vielleicht etwas einfachere Sichtweise ist die Interpreta-tion des Kreuzverhältnisses in Form von Längen:

Cross(x1, x2, x3, x4) =Δ13Δ24

Δ23Δ14

,

wobei Δij der Abstand zwischen den Punkten xi und xj ist.

Bemerkung: Die wichtigste Erkenntnis ist hier, dass das Kreuzverhältniseine Invariante bestimmter Transformationen ist. Im Allgemeinen müssendie Werte beider Formeln nicht übereinstimmen, da hier eine Permuta-tion der Elemente vorliegt. Dies ist erlaubt, solange die Elemente immerpaarweise vertauscht werden. Durch diese Permutation ändern sich danneventuell die Werte des Kreuzverhältnisses, das Kreuzverhältnis der pro-jizierten Punkte bleibt jedoch auch im Falle einer Permutation wiedererhalten und ändert sich nicht.

Isometrie und die euklidische Transformation

Die Klasse der IsometrienIsometrie ist in der Hierarchie der Transformationen die amstärksten spezialisierte Form. Isometrien beschreiben Transformationen im R

2,bei denen die Distanzen (iso = gleich, metric = Maß) erhalten bleiben. Es gilt:⎛⎜⎝x′

y′

1

⎞⎟⎠ =

⎡⎢⎣ε cos θ − sin θ tx

ε sin θ cos θ ty

0 0 1

⎤⎥⎦⎛⎜⎝x

y1

⎞⎟⎠ ,

Page 87: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.1. PROJEKTIVE GEOMETRIE 29

wobei ε = ±1 sein kann.

Wenn ε = 1 ist, handelt es sich um eine, die euklidischeTransformation

Orientierung erhaltende Isometrie.Sie wird euklidische Transformation genannt.

Da ε = −1 in der Praxis kaum relevant ist, nehmen wir nachfolgend an, dass essich bei den verwendeten Isometrien immer um euklidische Transformationenhandelt.

Definition 1.8 (Euklidische Transformation – 2D).

Die euklidische Transformation ist (kompakte Notation)

x′ = HEx =

[R t0� 1

]x,

wobei R die 2 × 2-Rotationsmatrix und t der Translationsvektor ist.

Zur kompakten Notation kompaktenNotation

, die nachfolgend bevorzugt verwendet werden wird,noch ein paar Informationen. Wie sieht die oben genannte Matrix aus?

• Zunächst gibt es die Information, dass R eine 2 × 2-Matrix ist:

⎡⎢⎢⎣r11 r12 . . .r21 r22

.... . .

⎤⎥⎥⎦

• Bei t handelt es sich um einen Vektor. Entsprechend gilt, da er neben Rnotiert wird, dass er die gleiche Anzahl Zeilen besitzt:

⎡⎢⎢⎣r11 r12 t1

r21 r22 t2

......

⎤⎥⎥⎦

• Die 1 am Ende der letzten Zeile ist ein Einzelelement. Da 0� ein trans-ponierter Nullvektor ist, also die Form (0 0 . . .) hat, handelt es sichum eine einzelne Zeile. Die Anzahl der Spalten ergibt es aus der darüberliegenden Matrix R: ⎡⎢⎣r11 r12 t1

r21 r22 t2

0 0 1

⎤⎥⎦

Es werden später noch aufwändigere Matrizen folgen, die voll ausgeschriebenzum einen unübersichtlich würden und zum anderen nicht mehr auf die Seitepassen würden. Daher sollten Sie sich schon an diese Notation gewöhnen.

Page 88: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

30 KURSEINHEIT 1. GEOMETRISCHE GRUNDLAGEN

Ähnlichkeitstransformation

Die Klasse der ÄhnlichkeitstransformationenÄhnlichkeits-transformation

ist in der Hierarchie der Trans-formationen etwas allgemeiner als die Isometrie. Im Gegensatz zur Isometrieist zusätzlich die Skalierung erlaubt. D. h. Winkel bleiben weiterhin erhalten,aber absolute Distanzen existieren nicht mehr. Es gilt:⎛⎜⎝x′

y′

1

⎞⎟⎠ =

⎡⎢⎣s cos θ −s sin θ tx

s sin θ s cos θ ty

0 0 1

⎤⎥⎦⎛⎜⎝x

y1

⎞⎟⎠ ,

wobei s der Skalierungsfaktor ist.

Definition 1.9 (Ähnlichkeitstransformation – 2D).

Die Ähnlichkeitstransformation ist (kompakte Notation)

x′ = HSx =

[sR t0� 1

]x,

wobei R die 2 × 2-Rotationsmatrix, t der Translationsvektor und s derSkalierungsfaktor ist.

Affine Transformation

Die Klasse der affinen TransformationenaffineTransformation

ist noch allgemeiner als die der Ähn-lichkeitstransformationen. Bei den affinen Transformationen ist zusätzlich dieDeformierung möglich. Damit bleiben Winkel bei dieser Transformation (inder Regel) nicht erhalten:⎛⎜⎝x′

y′

1

⎞⎟⎠ =

⎡⎢⎣a11 a12 tx

a21 a22 ty

0 0 1

⎤⎥⎦⎛⎜⎝x

y1

⎞⎟⎠

Definition 1.10 (Affine Transformation – 2D).

Die affine Transformation ist (kompakte Notation)

x′ = HAx =

[A t0� 1

]x

wobei A die affine 2 × 2-Matrix und t der Translationsvektor ist.

Die affine Matrix A kann dabei wie folgt zerlegt werden:

A = R(θ)R(−φ)DR(φ), mit

D =

[λ1 00 λ2

]

Page 89: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.1. PROJEKTIVE GEOMETRIE 31

wobei R(θ) die Rotationsmatrix ist und R(−φ)DR(φ) die Deformation be-schreibt. Informell wird zunächst alles um φ gedreht, anschließend um einenFaktor λ1 und λ2 in x- und y-Richtung skaliert und abschließend wieder um φzurück gedreht.

Nachdem schon diverse Eigenschaften der restriktivsten euklidischen Geome-trie aufgehoben sind, stellt sich die Frage, welche Eigenschaften noch erhaltenbleiben. Bei der affinen Geometrie sind das:

• Kollinearität

• Parallelität

• Teilverhältnisse

• Kreuzverhältnisse

Projektive Transformation

Projektive Transformationen projektiveTransformation

wurden bereits in den vorhergehenden Abschnit-ten eingeführt. Es handelt sich zusammenfassend um invertierbare lineareTransformationen homogener Koordinaten. Im Vergleich zu den affinen Trans-formationen sind nach einer projektiven Transformation ursprünglich paralleleElemente nicht mehr parallel. Zudem geht auch die Eigenschaft der Teilver-hältnisse verloren. Lediglich die Kollinearität und die Eigenschaft des Kreuz-verhältnisses bleiben erhalten.⎛⎜⎝x′

y′

1

⎞⎟⎠ =

⎡⎢⎣h11 h12 h13

h21 h22 h23

h31 h32 h33

⎤⎥⎦⎛⎜⎝x

y1

⎞⎟⎠

Definition 1.11 (Projektive Transformation – 2D).

Die projektive Transformation ist (kompakte Notation)

x′ = HP x =

[A tv� 1

]x,

wobei A die affine 2 × 2-Matrix, t der Translationsvektor und v� =(v1, v2) der projektive Anteil ist.

Dem einen oder anderen mag aufgefallen sein, dass es scheinbar einen kleinenWiderspruch zwischen den Matrizen vor und innerhalb der Definition gibt.Während in der Matrix vor der Definition alle 9 Elemente a11 bis a33 freigewählt werden können, ist in der Matrix HP aus der Definition der Wert a33 =1. Es ist jedoch beides richtig, denn zu Beginn des Abschnitts wurde bereitserwähnt, dass diese Homographiematrizen nur 8 Freiheitsgrade besitzen, dadas 9. Element als ein von Null verschiedener Skalar verwendet wird. Um dieSubmatrix A und die Vektoren t und v von diesem Skalar unabhängig zumachen, wurde das Element a33 = 1 festgesetzt.

Page 90: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

32 KURSEINHEIT 1. GEOMETRISCHE GRUNDLAGEN

Zusammenfassung der Invarianten planarer Transformationen

Die nachfolgende Tabelle 1.2 zeigt eine Übersicht über die einzelnen Gruppenplanarer Transformationen, die Anzahl der Freiheitsgrade (in der Tabelle mitFhg. abgekürzt) und die Invarianten ihrer Eigenschaften.

Gruppe Fhg. Matrix Invarianten

projektiv 8

⎡⎢⎣h11 h12 h13

h21 h22 h23

h31 h32 h33

⎤⎥⎦ Kollinearität und Kreuzverhältnis

affin 6

⎡⎢⎣a11 a12 tx

a21 a22 ty

0 0 1

⎤⎥⎦Parallelität, Teilverhältnis von par-allelen Segmenten auf Geraden undFlächenverhältnisse sowie alle ober-halb genannten Invarianten.

ähnlich 4

⎡⎢⎣s cos θ −s sin θ tx

s sin θ s cos θ ty

0 0 1

⎤⎥⎦ Winkel, Teilverhältnisse sowie alleoberhalb genannten Invarianten.

euklidisch 3

⎡⎢⎣cos θ − sin θ tx

sin θ cos θ ty

0 0 1

⎤⎥⎦ Längen, Flächen (absolut) und alleoberhalb genannten Invarianten.

Tabelle 1.2: Invarianten planarer Geometrien.

Die projektiven Gruppen sind in der Tabelle geordnet, sodass eine Matrix im-mer alle Elemente der darunter liegenden Matrizen enthält und die Invariantensich von oben nach unten ergänzen.

Die projektive Transformation und die Fluchtpunkte

Eine später noch benötigte und wichtige Eigenschaft der projektiven Transfor-mation betrifft die Projektion der Fluchtpunkte beziehungsweise der Geradenim Unendlichen l∞.

Die Gerade im Unendlichen hat bezüglich der projektiven Transformation einebesondere Eigenschaft. Die unendlich weit entfernten Fluchtpunkte werden beieiner projektiven Transformation zu endlichen Punkten. Entsprechend wird dieGerade im Unendlichen zu einer endlich abgebildeten Geraden. Dies gilt beiallen anderen Abbildungen nicht.

Der entscheidende Unterschied zwischen der projektiven Abbildung und denanderen Abbildungen ist, dass der Vektor v der projektiven Homographie nichtNull ist, was sich am folgenden Vergleich der affinen und projektiven Abbildungeines Fluchtpunktes zeigen lässt. Die affine Abbildung sieht wie folgt aus:

Page 91: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.1. PROJEKTIVE GEOMETRIE 33

Abbildung 1.8: Fluchtpunkt und Gerade im Unendlichen. Im euklidischen Raum paralleleGeraden, wie hier die Außenseiten einer langen geraden Straße (grün), schneiden sichnach der projektiven Transformation in einem Fluchtpunkt. Der Fluchtpunkt liegt aufeiner endlich abgebildeten Geraden im Unendlichen (rot), auch Horizont genannt.(Bild: Jens Garstka: Finnmark, Norwegen, 2011)

[A t0� 1

] ⎛⎜⎝x1

x2

0

⎞⎟⎠ =

⎛⎜⎝A

(x1

x2

)0

⎞⎟⎠ .

Die entsprechende projektive Abbildung sieht so aus:

[A tv� 1

] ⎛⎜⎝x1

x2

0

⎞⎟⎠ =

⎛⎜⎝ A

(x1

x2

)v1x1 + v2x2

⎞⎟⎠ .

Das ist der Grund, warum sich Fluchtpunkte in einer projektiven Abbildungvisuell darstellen lassen, denn die 3. Komponente der homogenen Koordinatenist ungleich 0.

Damit lässt sich auch die oben getroffene Aussage untermauern, dass die Ge-rade im Unendlichen bei einer projektiven Transformation zu einer endlichabgebildeten Geraden wird, beziehungsweise die Gerade im Unendlichen untereiner affinen Transformation erhalten bleibt:

l′∞ = H−�

A l∞ =

[A−� 0

−t�A−� 1

] ⎛⎜⎝001

⎞⎟⎠ =

⎛⎜⎝001

⎞⎟⎠ = l∞

Definition 1.12 (Unveränderlichkeit der Geraden im Unendlichen).

Die Gerade im Unendlichen l∞ ist unveränderlich unter einer Transfor-mation H, wenn H eine affine Transformation ist.

Page 92: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

34 KURSEINHEIT 1. GEOMETRISCHE GRUNDLAGEN

Zerlegung einer projektiven Transformation

Angenommen aus einer perspektivisch verzerrten Abbildung soll bestimmtwerden, welche Geraden parallel verlaufen. Dann muss nur genau der Teileiner Transformation bestimmt werden, der aus einer projektiven Abbildungeine affine Abbildung zurückrechnet.

Da in einer Homographiematrix alle beschriebenen Transformationen zusam-mengefasst sind, muss die Homographiematrix erst zerlegt werden, bevor di-rekt auf die einzelnen Eigenschaften zugegriffen werden kann. Diese Zerlegungnennt sich DekompositionDekomposition .

Sei H eine Homographiematrix, dann sieht eine Dekomposition von H zumBeispiel wie folgt aus:

H = HSHAHP =

[sR t0� 1

] [K 00� 1

] [I 0

v� v

]=

[A vtv� v

]

Dabei ist A = sRK + tv�, K eine obere Dreiecksmatrix7 mit det K = 1 undI die Identitätsmatrix. Die Zerlegung ist gültig für v �= 0 und eindeutig, wenns eine positive Zahl ist.

1.1.4 Wiedergewinnung metrischer und affiner Eigen-schaften aus perspektivisch verzerrten Bildern

Um zu zeigen, welche Möglichkeiten schon mit den bis hierher eingeführtenGrundlagen existieren, wird nachfolgend erklärt, wie aus einem Bild mithilfevon 4 Punktkorrespondenzen die projektive Verzerrung entfernt werden kann,so wie dies in den Abbildungen 1.6 (b) bis (d) gezeigt wurde.

Zunächst klären wir den Begriff Punktkorrespondenzen: Wenn eine Szenein unterschiedlichen projektiven Abbildungen dargestellt wird, zum Beispieldurch Fotos aus verschiedenen Ansichten, dann gibt es viele Punkte, die inallen oder mehreren Abbildungen zu sehen sind. Nehmen wir zum Beispiel denSchriftzug ’DUDEN’, welcher auf allen 4 Abbildungen auf 1.6 zu sehen ist.Von diesem Schriftzug wiederum nehmen wir die ganz rechte Ecke oben (vomBuchstaben N), die sich in jedem der 4 Bilder in exakt einem Pixel wieder-findet. Die 4 Koordinatenpaare dieser Pixel stellen eine Punktkorrespondenzüber die 4 Bilder dar. Entsprechend sind die Koordinaten eines anderen Pi-xels, dessen Inhalt sich ebenfalls ein allen 4 Bilder wiederfindet eine weiterePunktkorrespondenz.

Jetzt stellt sich die Frage, warum gerade 4 Punktkorrespondenzen benötigtwerden. Dies liegt daran, dass eine projektive Homographiematrix für die Ebe-ne 8 Freiheitsgrade hat, die es zu erfüllen gilt. Aber der Reihe nach. . .

7 Die obere Dreiecksmatrix ist eine Matrix, bei der alle Elemente unterhalb der Haupt-diagonale Null sind.

Page 93: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.1. PROJEKTIVE GEOMETRIE 35

Direkte lineare Transformation

Gesucht ist die projektive Homographie zwischen den Punkten x′i und xi:

x′i = Hxi

Hier soll noch einmal auf die kompakten Notation verwiesen werden. Die Ho-mographiematrix H hat die Form

H =

⎡⎢⎣h11 h12 h13

h21 h22 h23

h31 h32 h33

⎤⎥⎦Wird Homographiematrix H durch die Zeilenvektoren h�

j gegeben:

H =

⎡⎢⎣h�1

h�2

h�3

⎤⎥⎦ ,

ist zum Beispiel der Vektor

h�1 = (h11 h12 h13).

Damit kann die Homographie wie folgt hergestellt werden:⎛⎜⎝x′i

y′i

w′i

⎞⎟⎠ =

⎛⎜⎝h�1 · xi

h�2 · xi

h�3 · xi

⎞⎟⎠Dass es sich dabei auf er linken Seite um einen 3-Vektor handelt kann einfachnachvollzogen werden, denn h�

1 · xi = h11xi1 + h12xi2 + h13xi3. Es handelt sichalso um einen einzelnen Wert.

Indem beide Seiten der Gleichung mit dem Kreuzprodukt von x′i erweitert

werden, erhalten wir auf der linken Seite einen Nullvektor.⎛⎜⎝x′i

y′i

w′i

⎞⎟⎠ ×

⎛⎜⎝x′i

y′i

w′i

⎞⎟⎠ =

⎛⎜⎝x′i

y′i

w′i

⎞⎟⎠ ×

⎛⎜⎝h�1 · xi

h�2 · xi

h�3 · xi

⎞⎟⎠

0 =

⎛⎜⎝y′i · h�

3 · xi − w′i · h�

2 · xi

w′i · h�

1 · xi − x′i · h�

3 · xi

x′i · h�

2 · xi − y′i · h�

1 · xi

⎞⎟⎠ (1.1)

Aus dem Vektor auf der rechten Seite schiefsymmetrischeMatrix

lässt sich über die sogenannte schief-symmetrische Matrix eine Koeffizienten-Matrix extrahieren.

Und zwar lässt sich mit der schiefsymmetrischen Matrix das Kreuzproduktzweier Vektoren durch ein Matrix-Vektor-Produkt ersetzen. Allgemein gilt:⎡⎢⎣x1

x2

x3

⎤⎥⎦×

=

⎡⎢⎣ 0 −x3 x2

x3 0 −x1

−x2 x1 0

⎤⎥⎦ mit [x]× = −[x]�×

Page 94: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

36 KURSEINHEIT 1. GEOMETRISCHE GRUNDLAGEN

Da an dieser Stelle die schiefsymmetrische Matrix das erste Mal verwendetwird, soll auch gezeigt werden, dass die Gleichung gilt. Gesucht ist demnacheine Matrix A, so dass gilt:

x × y = Ay

Im Detail ist

x × y =

⎛⎜⎝x2y3 − x3y2

x3y1 − x1y3

x1y2 − x2y1

⎞⎟⎠ =

⎛⎜⎝a13y3 + a12y2 + a11y1

a23y3 + a22y2 + a21y1

a33y3 + a32y2 + a31y1

⎞⎟⎠ = Ay

Daraus ergibt sich direkt:

a13 = x2 a12 = −x3 a11 = 0a23 = −x1 a22 = 0 a21 = x3

a33 = 0 a32 = x1 a31 = −x2

Wird dieses Prinzip nun auf Gleichung 1.1 angewandt wird der Vektor in eineKoeffizienten-Matrix und einen Vektor h aufgetrennt:⎡⎢⎣ 0� −w′

i · x�i y′

i · x�i

w′i · x�

i 0� −x′i · x�

i

−y′i · x�

i x′i · x�

i 0�

⎤⎥⎦⎛⎜⎝h1

h2

h3

⎞⎟⎠ = 0

Hier noch ein letztes Mal der Verweis auf die kompakte Schreibweise:

• Der Vektor xi ist ein 3-Vektor. Multipliziert mit einem Skalar wie w′i und

transponiert ergibt einen Zeilenvektor (w′ixi1 w′

ixi2 w′ixi2). Demnach

besteht jede der drei Spalten selbst nochmal aus drei Spalten und eshandelt sich demnach auf er linken Seite um eine 3 × 9-Matrix.

• Jeder Vektor hi ist ein 3-Vektor. Demnach ist der gesamte Vektor passendzur Matrix ein 9-Vektor.

• Entsprechend ist 0 ein 3-dimensionaler Nullvektor.

Die Koeffizienten-Matrix ist eine 3 × 9-Matrix und h ein 9-dimensionaler Vek-tor. Die Zeilen der Matrix sind nicht linear unabhängig, weil sich die dritteZeile bis auf die Skalierung durch wi aus der Summe des x′

i-fachen der erstenZeile und dem y′

i-fachen der zweiten Zeile ergibt. Daher wird die Matrix soreduziert, dass die Zeilen linear unabhängig sind:

[0� −w′

i · x�i y′

i · x�i

w′i · x�

i 0� −x′i · x�

i

] ⎛⎜⎝h1

h2

h3

⎞⎟⎠ = 0

Dieses lineare Gleichungssystem besitzt 9 unbekannte Variablen hi und zweiGleichungen für ein Punktpaar – es erfüllt somit zwei der 9 Freiheitsgrade. Mitvier Punktpaaren, von denen keine drei kollinear sind, erhält man vier linearunabhängige Gleichungen. Damit werden die 8 Freiheitsgrade erfüllt. Der 9.Freiheitsgrad ist der Skalierungsfaktor und kann frei gewählt werden.

Page 95: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.1. PROJEKTIVE GEOMETRIE 37

Dieses lineare Gleichungssystem besitzt immer eine spezielle Lösung, die soge-nannte triviale Lösung, bei welcher der Skalierungsfaktor auf 0 gesetzt wird.Um diese Lösung auszuschließen wird in der Regel festgelegt, dass ||h|| = 1sein soll8.

Im Normalfall bezieht man den Skalierungsfaktor direkt in das Gleichungssys-tem mit ein, indem die letzte Komponente des Lösungsvektors auf 1 gesetztwird. Dann ergibt sich das folgende Gleichungssystem mit i = 1, 2, 3, 4 für die4 Punktkorrespondenzen:[

0 0 0 −xiw′i −yiw

′i −wiw

′i xiy

′i yiy

′i

xiw′i yiw

′i wiw

′i 0 0 0 −xix

′i −yix

′i

]h =

(−wiy

′i

wix′i

)(1.2)

Fazit: der Vektor h lässt sich, reduziert um die letzte Komponente, mit vierPunktkorrespondenzen exakt berechnen. Das kann zum Beispiel durch Gauß-Eliminierung erfolgen.

Dieses Verfahren, welches auch Direkte lineare Transformation Direkte lineareTransformation

oder DLT ge-nannt wird, wurde bei den Bildern in Abbildung 1.6 eingesetzt.

Hinweis: Das DLT-Verfahren lässt sich nur anwenden, wenn exakt 4 Punkt-korrespondenzen verwendet werden – zum Beispiel, wenn wie in Abbildung1.6 manuell Punkte in einem Bild ausgewählt wurden. Wenn mehr Punktkor-respondenzen (gegebenenfalls auch automatisiert) bestimmt werden, funktio-niert das DLT-Verfahren nicht mehr, da die Punktkorrespondenzen nicht exaktübereinstimmen und damit das lineare Gleichungssystem überbestimmt ist.

Affine Rektifizierung

Eine weitere Anwendung der bisher gelernten Methoden ist die Eliminierunggeometrischer Verzerrungen in Bilddaten, kurz Rektifizierung Rektifizierung. Bei der affinenRektifizierung lassen sich affine Eigenschaften, wie zum Beispiel die Paralleli-tät, aus eine projektiven Abbildung rekonstruieren. Da zwischen der projekti-ven und der affinen Abbildung lediglich zwei Freiheitsgrade Differenz liegen,ist es hinreichend eben diese Freiheitsgrade zu bestimmen, um die affinen Ei-genschaften zu rekonstruieren.

Das lässt sich beispielsweise durch die Bestimmung der Geraden im Unendli-chen realisieren. Sobald die, in einer projektiven Abbildung vorhandene Gera-de, im Unendlichen identifiziert wurde, können zum Beispiel direkt innerhalbder projektiven Abbildung Geraden identifiziert werden, die vor der projektivenAbbildung parallel waren, denn diese Linien schneiden sich in der Abbildungder Geraden im Unendlichen.

Wie bereits bekannt ist, wird die Gerade im Unendlichen in allen geometrischenRäumen mit Ausnahme des projektiven Raums auf die Gerade l∞ = (0, 0, 1)�

abgebildet. Daher ist der einfachste Weg aus einer projektiven Abbildung wie-der eine affine Abbildung zu berechnen, indem die Transformation zwischender Projektion der Geraden im Unendlichen und (0, 0, 1)� ermittelt wird.

8Da der Skalierungsfaktor frei gewählt werden kann, könnte man auch ||h|| = 2 oder||h|| = π setzen – nur eben nicht 0

Page 96: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

38 KURSEINHEIT 1. GEOMETRISCHE GRUNDLAGEN

Sei l = (l1, l2, l3)�, mit l3 �= 0, die Gerade im Unendlichen aus der projektivenAbbildung, dann ist

H = HA ·

⎡⎢⎣1 0 00 1 0l1 l2 l3

⎤⎥⎦ (1.3)

eine Homographie, mit deren Hilfe die Rektifizierung der projektiven Abbil-dung zu einer affinen Abbildung berechnet werden kann. Dabei ist HA eineaffine Matrix. Der hier beschriebene Zusammenhang ist noch einmal in Abbil-dung 1.9 dargestellt.

Abbildung 1.9: Affine Rektifizierung. Parallele Geraden schneiden sich nach der projekti-ven Transformation durch HP in einem Punkt. Die Gerade l∞ wird nach der Projektionzu einer Geraden l = (l1, l2, l3)�, mit l3 �= 0. Durch die Bestimmung der Geraden l

lässt sich die Homographie H zur Rücktransformation berechnen. Das Ergebnis ist dannin den meisten Fällen nicht das Originalbild, sondern eines, welches durch eine affineTransformation HA aus dem Original entstehen kann.

Nachfolgend wird in einzelnen Schritten gezeigt, warum die durch Gleichung1.3 beschriebene Homographie H tatsächlich eine Gerade l = (l1, l2, l3)� aufdie Geraden im Unendlichen l∞ = (0, 0, 1)� abbildet.

H = HA ·

⎡⎢⎣1 0 00 1 0l1 l2 l3

⎤⎥⎦

=

⎡⎢⎣a11 a12 tx

a21 a22 ty

0 0 1

⎤⎥⎦ ·

⎡⎢⎣1 0 00 1 0l1 l2 l3

⎤⎥⎦

=

⎡⎢⎣a11 + txl1 a12 + txl2 txl3a21 + tyl1 a22 + tyl2 tyl3

l1 l2 l3

⎤⎥⎦

Gemäß der Transformation von Geraden gilt: l′ = H−T l. Daher muss die in-verse transponierte Matrix von H gebildet werden:

Page 97: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.1. PROJEKTIVE GEOMETRIE 39

H−T =

⎡⎢⎣a11 + txl1 a12 + txl2 txl3a21 + tyl1 a22 + tyl2 tyl3

l1 l2 l3

⎤⎥⎦−T

=1

(a11a22 − a12a21)l3·

⎡⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣

a22l3 −a21l3 a21l2 − a22l1

−a12l3 a11l3 a12l1 − a11l2

a11a22 − a12a21 . . .l3(−a22tx + a12ty) l3(a21tx − a11ty) +tx(a22l1 − a21l2) . . .

+ty(a11l2 − a12l1)

⎤⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦Dass diese Matrix tatsächlich die Lösung für die Abbildung der Geraden l aufl∞ ist, zeigen wir nun durch Anwendung auf l = (l1, l2, l3)�:

H−T l =1

(a11a22 − a12a21)l3⎛⎜⎜⎜⎜⎜⎜⎜⎝

a22l1l3 − a21l2l3 − a22l1l3 + a21l2l3

−a12l1l3 + a11l2l3 + a12l1l3 − a11l2l3

l1l3(−a22tx + a12ty) + l2l3(a21tx − a11ty) + l3(a11a22 − a12a21)+l3tx(a22l1 − a21l2) + l3ty(a11l2 − a12l1)

⎞⎟⎟⎟⎟⎟⎟⎟⎠

=1

(a11a22 − a12a21)l3

⎛⎜⎝ 00

(a11a22 − a12a21)l3

⎞⎟⎠

=

⎛⎜⎝001

⎞⎟⎠ = l∞

Das entspricht genau der o. g. Annahme.

1.1.5 Der dreidimensionale projektive Raum

Da sich der Kurs mit der Rekonstruktion von dreidimensionalen Objekten be-schäftigt, ist es nicht hinreichend, sich nur mit der projektiven Geometrie inder Ebene zu beschäftigen. Daher werden in den folgenden Abschnitten die be-nötigten Grundlagen für den dreidimensionalen projektiven Raum eingeführt.

Punkte und ihre projektive Transformation

Die homogene Repräsentation homogeneDarstellung vonPunkten im R

3

von Punkten x = (x1, x2, x3)� im R3 wird durch

einen 4-VektorX = (X 1, X 2, X 3, X 4)

Page 98: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

40 KURSEINHEIT 1. GEOMETRISCHE GRUNDLAGEN

mit X 4 �= 0 beschrieben. Aus den homogenen Koordinaten wird analog zumzweidimensionalen Fall x1 = X 1/X 4, x2 = X 2/X 4 und x3 = X 3/X 4.

Definition 1.13 (Projektive Transformation von Punkten – 3D).

Die Projektion von Punkten erfolgt durch die 4 × 4 große Homographie-matrix H als

X ′ = HX .

Die Matrix hat 15 Freiheitsgrade bei 16 Elementen. Das 16. Elementkann bezüglich der Skalierung frei gewählt werden.

Ebenen und der dreidimensionale projektive Raum

Eine Ebene im dreidimensionalen Raum kann durch die folgende impliziteGleichung

Π1x1 + Π2x2 + Π3x3 + Π4 = 0

beschrieben werden. Werden die Parameter Π1, Π2, Π3 und Π4 mit einemgemeinsamen Faktor �= 0 multipliziert, beschreiben sie die gleiche Ebene.Demnach lässt sich eine Ebene eindeutig durch die paarweisen VerhältnisseΠ1 : Π2 : Π3 : Π4 beschreiben. Die homogenen Koordinaten sind:⎛⎜⎜⎜⎝

X 1

X 2

X 3

X 4

⎞⎟⎟⎟⎠ =

⎛⎜⎜⎜⎝sx1

sx2

sx3

s

⎞⎟⎟⎟⎠ , mit s �= 0.

Entsprechend ist die homogene Gleichung der EbenehomogeneGleichung der

EbeneΠ1X 1 + Π2X 2 + Π3X 3 + Π4X 4 = 0,

beziehungsweiseΠ

�X = 0.

Damit wird ausgedrückt, dass der Punkt X auf der Ebene Π liegt.

Die ersten drei Elemente des Vektors Π entsprechen dem Normalenvektor nder Ebene, das vierte Element entspricht mit Π4/‖n‖ dem Abstand zwischender Ebene und dem Ursprung.

Es gilt zudem:

• Drei Punkte beschreiben eine Ebene

• Zwei Ebenen beschreiben eine Gerade

• Drei Ebenen beschreiben einen Punkt.

Definition 1.14 (Projektive Transformation von Ebenen – 3D).

Die projektive Transformation von Ebenen im 3D ist

Π′ = H−T

Π

Page 99: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.1. PROJEKTIVE GEOMETRIE 41

Drei Punkte beschreiben eine Ebene

Gegeben sind drei Punkte X1, X2 und X3. Sie liegen alle auf der Ebene Π.Daher können Sie in Matrixform als⎡⎢⎣X �

1

X �2

X �3

⎤⎥⎦ Π = 0

geschrieben werden. Sofern die drei Punkte nicht kollinear sind, erhält man ei-ne 3 × 4-Matrix vom Rang 3. Entsprechend ist Π bis auf den Skalierungsfaktoreindeutig bestimmbar – man erhält also einen eindimensionalen Lösungsraum(engl.: null-space) 3 Punkte

beschreiben eineEbene

. Wenn die 3 Punkte kollinear sind, ist die Matrix vom Rang2 und man erhält einen zweidimensionalen Lösungsraum, der alle Ebenen ent-hält, die durch die Gerade verlaufen, welche durch die drei kollinearen Punkteaufgespannt wird.

So wie im P2 das Kreuzprodukt zweier Punkte die Gerade beschreibt, die

durch diese Punkte verläuft, beschreibt im P3 ein Vektor aus 4 Determinanten

die Ebene Π, die durch die drei Punkte X1, X2 und X3 in allgemeiner Lage9

aufgespannt wird.

Angenommen es gibt einen weiteren Punkt X in allgemeiner Lage, der ebenfallsauf der aus X1, X2 und X3 beschriebenen Ebene Π liegt. Dann sei

M =[X X1 X2 X3

]eine 4 × 4-Matrix. Weil sich der Punkt X als Linearkombination der PunkteX1, X2 und X3 angeben lässt, ist die Determinante det M = 0.

Aufgrund des Laplaceschen Entwicklungssatzes kann die Berechnung mithilfeder ersten Spalte der Matrix M (dem Vektor X ) und den Determinanten derkorrespondierenden Submatrizen erfolgen. D.h. es gilt

detM = X 1D234 − X 2D134 + X 3D124 − X 4D123,

mit X = (X 1, ..., X 4)� und Djkl den Determinanten der Submatrizen bestehend

aus den Zeilen j, k und l der 4 × 3-Matrix[X1 X2 X3

].

Da für alle Punkte der Ebene Π dann gelten muss, dass det M = 0, gilt:

X 1D234 − X 2D134 + X 3D124 − X 4D123 = 0

Dementsprechend können die Koeffizienten der Ebenengleichung einfach abge-lesen werden:

Π = (D234, −D134, D124, −D123)�

Drei Ebenen beschreiben einen Punkt

Analog zu den drei Punkten, die eine Ebene aufspannen, lässt sich mit dreiEbenen ein Punkt bestimmen 3 Ebenen

beschreiben einenPunkt

. ⎡⎢⎣Π�1

Π�2

Π�3

⎤⎥⎦ X = 0

9Die Punkte liegen nicht auf einer gemeinsamen Geraden

Page 100: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

42 KURSEINHEIT 1. GEOMETRISCHE GRUNDLAGEN

Entsprechend ist die Lösung über die Determinanten gegeben:

X = (D234, −D134, D124, −D123)�

Dualität im dreidimensionalen projektiven Raum

An dieser Stelle lässt sich schon erahnen, dass es auch im dreidimensionalenprojektiven Raum eine DualitätDualität im P

3 zwischen den Punkten, Geraden und Flächengibt. Wie die letzten beiden Abschnitte zeigen, sind Punkte und Ebenen dualzueinander.

Aber was ist mit Geraden? Geraden sind selbst-dual. Das werden wir in denfolgenden Abschnitten zeigen.

Geraden im dreidimensionalen projektiven Raum

Eine Gerade im R3Gerade im R

3 hat 4 Freiheitsgrade. Man kann sich das so vorstellen,dass es im euklidischen Raum zwei orthogonale Ebenen gibt, auf denen je einPunkt liegt, durch den die Gerade verlaufen soll. Die beiden Punkte lassen sichdurch je zwei Koordinaten beschreiben. Diese Beschreibung einer Geraden istin Abbildung 1.10 schematisch dargestellt.

Abbildung 1.10: Geraden im R3. Geraden lassen sich im euklidischen Raum durch zwei

orthogonale Ebenen darstellen, auf denen je ein Punkt liegt, durch den die Gerade ver-laufen soll.

Die 4 Freiheitsgrade oder Koordinaten führen zu einem homogenen 5-Vektor.Da sich Vektoren unterschiedlicher Dimension schlecht kombinieren lassen,muss für Geraden eine andere Darstellungsform gewählt werden.

Repräsentation einer Geraden durch die lineare Hülle

Eine mögliche Darstellungsform einer Geraden ist die Repräsentation durchdie lineare Hülle. In diesem Zusammenhang muss zunächst der Begriff Bündel

Bündel erklärt werden. Ein Bündel ist in der Geometrie eine Menge von Unterräumen,die eine gemeinsame Schnittmenge haben. Diese gemeinsame Schnittmenge istder sogenannte TrägerTräger des Bündels. Zum Beispiel ist eine Menge von Gera-den, die sich in einem Punkt schneiden, ein Bündel und der Schnittpunkt der

Page 101: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.1. PROJEKTIVE GEOMETRIE 43

Träger. Entsprechend gibt es eine Menge von Ebenen, die eine gemeinsameSchnittgerade besitzen. Dann sind die Ebenen ebenfalls ein Bündel und dieSchnittgerade der zugehörige Träger.

Seien nun A und B zwei Vektoren in homogenen Koordinaten. Sei

W =

[A�

B�

]

eine 2×4-Matrix. Die lineare Hülle lineare Hüllezweier Punkte

von W � ist das Bündel der Punkte λA+μB.In homogenen Koordinaten ist diese lineare Hülle eine Ebene im projektivenRaum P

3, aus der jedoch im R3 eine Gerade wird.

Eine visuelle Darstellung ist natürlich im 4-dimensionalen Raum nicht direktmöglich. Allerdings lässt sich der Sachverhalt auch aus der Geometrie der Ebe-ne beschreiben, wie in Abbildung 1.11 dargestellt ist.

Abbildung 1.11: Bündel und lineare Hülle. Seien a und b zwei Vektoren in homogenen

Koordinaten im P2. Sei W � =

[a� b�

]eine 2 × 3-Matrix. Die lineare Hülle von W �

ist das Bündel der Punkte λa + μb. In homogenen Koordinaten ist diese lineare Hülleeine Ebene, die hier in beige dargestellt wird. Nach der Dehomogenisierung verbleibteine Gerade durch die beiden Punkte.

Alternativ können auch Ebenen verwendet werden. Seien P und Q zwei Ebe-nen. Sei

W ∗ =

[P�

Q�

](1.4)

eine 2 × 4-Matrix. Die Lineare Hülle lineare Hüllezweier Ebenen

von W ∗T ist das Bündel der Ebenenλ′P + μ′Q mit der zu repräsentierenden Geraden als gemeinsame Achse.

Die Repräsentation durch die Lineare Hülle ist sehr praktisch bei numeri-schen Implementierungen, wo die Lösungsräume durch Anwendung des SVD-Algorithmus10 bestimmt werden können.

10 SVD steht für singular value decomposition – die Singulärwertzerlegung. Bei der Singu-lärwertzerlegung werden – ganz grob zusammengefasst – wichtige Eigenschaften von Elemen-ten in einem Vektorraum herausgearbeitet. Dazu werden die Elemente, zum Beispiel Punkteim R

3 in einer n × m Matrix A, zusammengefasst. Diese Matrix wird in A = U · S · V �

zerlegt, so dass S eine n × m-Matrix ist, wobei die ersten Zeilen einer Diagonalmatrix mitabsteigenden Werten entsprechen und U (n × n), sowie V (m × m) Orthonormalbasen sind,

Page 102: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

44 KURSEINHEIT 1. GEOMETRISCHE GRUNDLAGEN

Repräsentation durch die Plücker Matrix

Bei der sogenannten Plücker-Matrix handelt es sich um eine 4×4 schiefsymme-trische homogene Matrixschiefsymmetrische

homogene Matrix. Das ist eine Matrix, bei der A� = −A ist. Beispiel:⎡⎢⎢⎢⎣

0 a1 a2 a3

−a1 0 a4 a5

−a2 −a4 0 a6

−a3 −a5 −a6 0

⎤⎥⎥⎥⎦Für zwei Punkte A und B beschreibt die Matrix

L = AB� − BA�

eine solche Matrix.

Diese Matrix hat die folgenden Eigenschaften:

• L hat den Rang zwei und daher einen zweidimensionalen Lösungsraum,der durch ein Ebenenbündel die Gerade als Achse beschreibt.

• Die Repräsentation hat 4 Freiheitsgrade, wie jede Gerade im R3.

• Die Relation L = AB� − BA� ist eine Verallgemeinerung im 4-dimen-sionalen Raum für l = x × x im P

2.

• Die Matrix ist unabhängig von der Wahl der Punkte auf der Geraden.

Wie bereits angedeutet besteht auch bei der Geraden eine Dualität. Und zwarist die Gerade dual zu sich selbst. Das zeigt sich, indem zur Repräsentationder Gerade nicht wie oben zwei Punkte A und B, sondern zwei Ebenen P undQ (vergleiche Gleichung 1.4) verwendet werden. Damit gilt:

L∗ = PQ� − QP�

Für Geraden im P3 gelten die nachfolgenden Eigenschaften:

• L∗X = 0 ist genau dann erfüllt, wenn der Punkt X auf der Geradenliegt.

• LΠ = 0 ist genau dann erfüllt, wenn die Gerade in der Ebene Π liegt.

• L∗X = Π definiert zusammen mit dem Punkt X , sofern L∗X �= 0, eineEbene Π.

• LΠ = X ist der Schnittpunkt zwischen der Geraden und einer Ebene.

d. h. UU� = I und V V � = I gilt. Die Spalten von U und V sind die sogenannten Singulär-vektoren, die Werte der Diagonalmatrix S sind die Singulärwerte.

Interpretieren lassen sich die Singulärvektoren aus V wie folgt: am Beispiel einer Punkt-wolke beschreibt der erste Singulärvektor mit dem ersten, respektive größten Singulärwertdie Richtung und den Betrag der größten Ausdehnung. Der zweite Vektor steht dazu ortho-gonal und beschreibt die zweitgrößte Ausdehnung und so weiter. Ein weiteres Beispiel isteine schiefe Ellipse in der Ebene. Die beiden Singulärvektoren zeigen in Richtung der beidenEllipsenradien, die Singulärwerte enthalten die entsprechenden Beträge der Radien.

Page 103: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.1. PROJEKTIVE GEOMETRIE 45

Ebene im Unendlichen

Zum Abschluss dieses Abschnitts wird noch die zur Geraden im Unendlichenl∞ aus dem P

2 korrespondierende Ebene im Unendlichen Ebene imUnendlichen

Π∞ im P3 eingeführt.

Diese Ebene hat die kanonische Form:

Π∞ = (0, 0, 0, 1)�.

Ähnlich, wie bei der Geraden im Unendlichen, hat die Ebene im Unendlichenfolgende Eigenschaften:

• Die Ebene im Unendlichen enthält alle Richtungen des dreidimensionalenRaums: D = (X 1, X 2, X 3, 0)�. Die Menge aller Punkte D ergibt – analogzur Geraden im Unendlichen – die Ebene im Unendlichen.

• Zwei Ebenen sind genau dann parallel, wenn ihre Schnittgerade auf derEbene im Unendlichen Π∞ liegt.

• Zwei Geraden sind genau dann parallel, wenn ihr Schnittpunkt auf derEbene im Unendlichen liegt.

Zur Erinnerung: die projektive Abbildung einer Geraden im Unendlichen isteine „ganz normale“ Gerade. Alle parallelen Geraden schneiden sich in Schnitt-punkten, die auf dieser Geraden im Unendlichen liegen. In Abbildung 1.12wird dazu eine Ebene mit zwei parallelen Geraden und die zugehörige projek-tive Abbildung dargestellt. Es zeigt sich, dass die beiden Geraden in einemFluchtpunkt zusammenlaufen. Dieser Fluchtpunkt liegt auf der Geraden imUnendlichen (gelb).

Abbildung 1.12: Gerade im Unendlichen als projektive Abbildung. Die Abbildung zeigteine Ebene (beige) auf der sich zwei parallele unendliche Geraden (lila) befinden. Eineprojektive Transformation auf die Bildebene (türkis) ergibt, dass sich die beiden parallelenGeraden in einem Fluchtpunkt auf der Geraden im Unendlichen (gelb) treffen. Die Lagedes Fluchtpunktes auf der Geraden im Unendlichen hängt nur von der Richtung derparallelen Geraden ab, nicht von ihrer Lage auf der Ebene.

Page 104: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

46 KURSEINHEIT 1. GEOMETRISCHE GRUNDLAGEN

Angenommen die Projektion wird um eine weitere, nicht koplanare Ebene er-weitert, dann folgt daraus der Übergang vom zweidimensionalen Raum P

2 inden dreidimensionalen Raum P

3.

In Abbildung 1.13 ist dieses Prinzip ebenfalls schematisch dargestellt. Mankann erkennen, dass die parallelen Geraden auf beiden Ebenen jeweils ihreeigenen Fluchtpunkte haben. Jede Ebene besitzt quasi ihre eigene Gerade imUnendlichen. Für den Fluchtpunkt ist dabei jeweils nur die Richtung, abernicht die Lage einer Geraden relevant. Das gilt auch für die zusätzliche Ebene,die parallel zu den ersten beiden Geraden (lila) ist und damit die Gerade imUnendlichen im gleichen Fluchtpunkt wie die beiden lila Geraden schneidet.

Abbildung 1.13: Ebene im Unendlichen als projektive Abbildung. Zusätzlich zur Ab-bildung 1.12 wird eine zweite Ebene (graublau) dargestellt. Diese Ebene enthält zweiparallele Geraden (blau). Die projektive Abbildung dieser Geraden läuft wieder in einemFluchtpunkt zusammen, welcher jedoch nicht auf der Geraden im Unendlichen der erstenEbene (beige) liegt. Stattdessen besitzt die neue Ebene ihre eigene Gerade im Unendli-chen (grün). Auch hier gilt, dass alle Parallelen, die sich auf der neuen Ebene befinden,diese Gerade aufspannen. Jede weitere nicht koplanare Ebene würde eine eigene Geradeim Unendlichen besitzen, so dass über alle möglichen Ebenen und dementsprechend alleFluchtpunkte paralleler Geraden im Raum eine gemeinsame Ebene entsteht – die Ebeneim Unendlichen Π∞ = (0, 0, 0, 1)�.

Die Abbildung zeigt nur zwei Ebenen. Wird das Modell um alle möglichenEbenen im Raum erweitert, bilden die zugehörigen Geraden im Unendlichenund entsprechend die Fluchtpunkte aller parallelen Geraden im Raum einegemeinsame Ebene. Das ist die Ebene im Unendlichen.

Analog zur Definition 1.12 zur Unveränderlichkeit einer Geraden im Unend-lichen unter einer affinen Transformation, gilt diese Eigenschaft auch für dieEbene im Unendlichen:

Page 105: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.1. PROJEKTIVE GEOMETRIE 47

Definition 1.15 (Unveränderlichkeit der Ebene im Unendlichen).

Die Ebene im Unendlichen Π∞ ist unveränderlich unter einer Transfor-mation H, wenn H eine affine Transformation ist.

Damit ist dieser Abschnitt über die Grundlagen der projektiven Geometrieabgeschlossen. Sie sollten jetzt die Repräsentation von Punkten und Geradenim zweidimensionalen und dreidimensionalen Raum kennen. Zudem sollte Ih-nen klar sein was homogene Koordinaten sind und warum diese Koordinatenverwendet werden. Darüber hinaus gibt es eine Vielzahl Eigenschaften, die dieeinzelnen Räume unterscheidet. Dazu gehören Winkel und Längenmaße oderdie Parallelität. Sie sollten in der Lage sein die Unterschiede der Räume zunennen. Besonders wichtig sind zudem Begriffe wie Fluchtpunkt oder Geradeim Unendlichen, die besonders für den nachfolgend sehr wichtigen projektivenRaum eine besondere Rolle spielen.

Grundsätzlich sollten Sie die hier vorgestellten Grundlagen als Basis für diefolgenden Kapitel verstehen, die ohne dieses Wissen wenig verständlich seinwerden.

Page 106: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

48 KURSEINHEIT 1. GEOMETRISCHE GRUNDLAGEN

1.2 Kegelschnitte, Kegel und Quadriken

Lernziele:Im folgenden Abschnitt werden Sie zunächst die Kegelschnitte alsspezielle Kurven in der Ebene kennen lernen. Sie werden zunächstlernen, wie Kegelschnitte, Punkte und Geraden in der Ebene zu-sammenhängen. Anschließend werden wir zeigen, dass sich Kegel-schnitte analog zu den Punkten und Geraden über Homographientransformieren lassen. Mit dieser Einführung werden Sie schließ-lich für die Geometrie in der Ebene zwei besondere Punkte, dieZirkularpunkte und den sogenannten dualen Kegelschnitt kennenlernen. Das Besondere am dualen Kegelschnitt ist, dass er aufmathematisch geschickte Weise die Eigenschaften der euklidischenGeometrie in der Ebene abbildet. So werden Sie durch die Bestim-mung des dualen Kegelschnitts in einer projektiven Abbildung inder Lage sein, die euklidischen Eigenschaften zu rekonstruieren.

Zum Abschluss des Abschnitts werden wir das Konzept in dendreidimensionalen Raum überführen. Sie lernen analog zum Ke-gelschnitt die Quadrik als Fläche im dreidimensionalen Raum ken-nen. Entsprechend der Zirkularpunkte in der Ebene wird der so-genannte absolute Kegelschnitt eingeführt und als Analogon zumdualen Kegelschnitt werden Sie die absolute duale Quadrik kennenlernen. Letztere bildet die Eigenschaften der euklidischen Geome-trie – hierbei jedoch für den dreidimensionalen Raum – ab.

Das Kernziel dieses Kurses ist die Rekonstruktion einer dreidimensionalen Sze-ne aus zweidimensionalen Abbildungen derselben. Wir werden in Kurseinheit 2mithilfe der sogenannten Fundamentalmatrix eine Beziehung zwischen den bei-den Abbildungen herstellen und daraus zwei Kameras für die Rekonstruktionbilden. In diesem Zusammenhang ist es nötig die beiden Kameras automa-tisiert zu kalibrieren. Das eingesetzte Verfahren benötigt die geometrischenKonzepte, die nachfolgend eingeführt werden.

1.2.1 Kegelschnitte

Ein Kegelschnitt ist eine Kurve in der Ebene, die sich aus dem Schnitt einerEbene mit einem Kegel ergibt. Es gibt genau drei unterschiedlichen Kegel-schnitttypen, die in Abbildung 1.14 dargestellt sind.

Kegelschnitte werden dabei in die folgenden Gruppen unterteilt:

• Ellipse:

Die Schnittebene schneidet den Kegel und der Winkel zwischen der Achsedes Kegels und der Schnittebene ist größer als der halbe Öffnungswinkeldes Kegels. Ein Spezialfall ist der Kreis, wenn die Schnittebene orthogo-nal zur Kegelachse liegt.

Page 107: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.2. KEGELSCHNITTE, KEGEL UND QUADRIKEN 49

Abbildung 1.14: Kegelschnitte. Der linke Kegelschnitt ist eine Ellipse. Diese Kurve trittgenau dann auf, wenn der Winkel zwischen Kegelachse und Schnittebene größer ist, alsder halbe Öffnungswinkel des Kegels. Für den Fall, dass der Winkel zwischen Kegelachseund Schnittebene 90◦ beträgt, handelt es sich um einen Kreis. Der mittlere Kegelschnittist eine Parabel. Diese Kurve tritt genau dann auf, wenn der Winkel zwischen Kegelachseund Schnittebene gleich dem halben Öffnungswinkel des Kegels ist. Der rechte Kegel-schnitt ist eine Hyperbel. Diese Kurve tritt genau dann auf, wenn der Winkel zwischenKegelachse und Schnittebene kleiner ist, als der halbe Öffnungswinkel des Kegels.

• Parabel:

Die Schnittebene schneidet den Kegel und der Winkel zwischen der Achsedes Kegels und der Schnittebene ist genau der halbe Öffnungswinkel desKegels.

• Hyperbel:

Die Schnittebene schneidet den Kegel und der Winkel zwischen der Achsedes Kegels und der Schnittebene ist kleiner als der halbe Öffnungswinkeldes Kegels.

Schnittebenen, die durch die Spitze des Kegels gehen, werden degeneriert ge-nannt. Wir werden sehen, dass nicht degenerierte Kegelschnitte äquivalenteEigenschaften zwischen R

2 und P2 haben.

Kegelschnitt als quadratische Gleichung

Die Kegelschnitte werden in der Ebene mit einer quadratischen Gleichung de-finiert:

ax2 + bxy + cy2 + dx + ey + f = 0

Diese Gleichung wir so umgeformt, dass homogene Koordinaten verwendetwerden können. Es gilt x = x1/x3 und y = x2/x3. Somit folgt:

ax2

1

x23

+ bx1x2

x23

+ cx2

2

x23

+ dx1

x3

+ ex2

x3

+ f = 0

ax2

1 + bx1x2 + cx2

2 + dx1x3 + ex2x3 + fx2

3 = 0

Page 108: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

50 KURSEINHEIT 1. GEOMETRISCHE GRUNDLAGEN

Damit lässt sich die Gleichung in eine Matrixschreibweise übertragen, so dassdie Matrix C die Parameter des Kegelschnitts enthält und für Punkte x inhomogenen Koordinaten gilt:

x�Cx = 0

mit

C =

⎡⎢⎣ a b/2 d/2b/2 c e/2d/2 e/2 f

⎤⎥⎦Die Matrix ist symmetrisch und die Multiplikation mit einem Skalar würde ander o. g. Gleichung nichts ändern. Daher ist lediglich das Verhältnis der Wertezueinander von Bedeutung {a : b : c : d : e : f}, woraus sich 5 Freiheitsgrade(6 Elemente der Matrix weniger einem für die Skalierung) ergeben.

Das legt nahe, dass sich derartige Kegelschnitte über 5 PunkteDefinition derKegelschnitte über

5 Punkte

definieren las-sen. Ausgangspunkt ist wieder die Gleichung

ax2

i + bxiyi + cy2

i + dxi + eyi + f = 0,

wobei xi = (xi, yi, 1)� ein Punkt in homogenen Koordinaten ist. Wenn dieKoeffizienten in einem Vektor zusammengefasst werden

c = (a, b, c, d, e, f)�,

kann für jeden Punkt die folgende Gleichung aufgestellt werden:

(x2

i , xiyi, y2

i , xi, yi, 1)c = 0,

von denen wiederum mehrere in einem linearen Gleichungssystem zusammen-gefasst werden können, dessen Lösung 5 nicht kollineare Punkte benötigt.

Tangenten am Kegelschnitt

Des Weiteren lassen sich nicht nur Verbindungen zwischen Punkten und Ke-gelschnitten, sondern auch zwischen Geraden und Kegelschnitten herstellen.Wenn x ein Punkt auf dem Kegelschnitt über C ist, dann gilt, wie obenbeschrieben x�Cx = 0. Eine Tangente an diesem KegelschnittTangente an

Kegelschnittist dann die

Gerade durch diesen Punkt:l = Cx

Dazu müssen zwei Dinge gezeigt werden:

1. x liegt auf Geraden l:l�x = 0.

Daraus folgt:(Cx)�x = x�C�x = x�Cx = 0

Page 109: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.2. KEGELSCHNITTE, KEGEL UND QUADRIKEN 51

2. x ist der einzige Punkt auf l, der auch auf dem Kegelschnitt liegt.

Angenommen es gibt einen zweiten Punkt y mit y �= αx (die Bedingungist notwendig um durch Skalierung äquivalente Punkte auszuschließen),welcher ebenfalls auf dem Kegelschnitt (y�Cy = 0) und auf der Geradenl liegt (l�y = (Cx)�y = x�C�y = x�Cy) = 0, dann ergeben sich darausdie folgenden Gleichungen:

x�Cx = 0

x�Cy = 0

y�Cy = 0

In den ersten beiden Gleichungen ist x�C ein Vektor, der orthogonal zux und y liegt. Daher ist auch die Linearkombination aus x und y ortho-gonal zu x�C. In den letzten beiden Gleichungen ist Cy ein Vektor, derorthogonal zu x und y liegt. Entsprechend ist auch hier die Linearkombi-nation aus x und y orthogonal zu Cy. Diese beiden Linearkombinationenergeben:

x�C(αx + βy) = 0 und

(αx + βy)�Cy = 0,

die wie folgt zusammengefasst werden können:

(αx + βy)�C(αx + βy) = (x + γy)�C(x + γy) = 0

Wenn es eine Lösung für γ �= 0 gibt, dann müssen alle γ gültige Lö-sungen sein. Daraus würde folgen, dass die gesamte Gerade l auf demKegelschnitt liegt. Dies ist nur bei degenerierten Kegelschnitten der Fall.

Duale Kegelschnitte

Unter Berücksichtigung der Dualität im P2 ist es nicht verwunderlich, dass sich

auch aus Geraden ein Kegelschnitt beschreiben lässt. Dieser duale Kegelschnittdualer KegelschnittC∗ wird daher oft auch als Linienkegelschnitt bezeichnet. Abbildung 1.15 zeigt

schematisch, wie ein dualer Kegelschnitt entsteht.

Das bedeutet, dass eine Gerade l, die den Kegelschnitt C tangential berührt,die folgende Gleichung erfüllt:

l�C∗l = 0.

Hierbei ist C∗ der besagte, zu C duale Kegelschnitt. Für eine symmetrischeund invertierbare Matrix C∗ gilt C∗ = C−1

Dies lässt sich leicht zeigen: x ist ein Punkt auf dem Kegelschnitt C, welcherdie Tangente l = Cx hat. Es gilt entsprechend x = C−1l. Da weiter bekanntist, dass x genau dann auf C liegt, wenn x�Cx = 0 gilt, ergibt sich

(C−1l)�C(C−1l) = 0.

Da bereits zu Beginn dieses Abschnitts gezeigt wurde, dass C eine symmetri-sche Matrix ist, gilt C−� = C−1 und wir erhalten durch Umformung11:

(C−1l)�C(C−1l) = l�C−�l = l�C−1l = 0.11Für quadratische Matrizen A und B gilt: (AB)� = B�A�

Page 110: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

52 KURSEINHEIT 1. GEOMETRISCHE GRUNDLAGEN

Abbildung 1.15: Linienkegelschnitt / dualer Kegelschnitt. Die lineare Hülle aller Geradenl, für die gilt l�C∗l = 0 ist der Kegelschnitt C.

Degenerierte Kegelschnitte

Wie zuvor nur in einem Nebensatz erwähnt wurde, sind Kegelschnitte, derenSchnittebenen nur durch die Spitze des Kegels gehen, sogenannte degenerierteKegelschnittedegenerierte

Kegelschnitte. Diese degenerierten Kegelschnitte sind für die Rekonstruktion

des euklidischen Raums aus einem projektiven Raum von großer Bedeutung.

Definition 1.16 (Degenerierte Kegelschnitte).

Falls die Matrix C nicht den vollen Rang besitzt, wird der Kegelschnittals degeneriert bezeichnet. Dabei wird zwischen einem degeneriertenPunktkegelschnitt und einem degenerierten Linienkegelschnitt unter-schieden. Beide Formen können vom Rang 2 oder Rang 1 sein.

Der degenerierte PunktkegelschnittdegeneriertePunktkegelschnitt

kann aus zwei Geraden bestehen. C kannbeispielsweise durch die beiden Geraden l1 und l2 wie folgt dargestellt werden:

C = l1l�2 + l2l�

1 .

Liegt ein Punkt x auf l1, so gilt x�l1 = 0. Liegt der Punkt auch auf demKegelschnitt, so gilt x�Cx = x�(l1l�

2 + l2l�1 )x = 0. Analog liege der gleiche

Punkt x auch auf l2 und dem Kegelschnitt C. Dann ist der Lösungsraum derSchnitt der Geraden x = l1 × l2. C hat den Rang 2. Die Schnittebene, die denKegelschnitt definiert, wird durch die zwei Geraden l1 und l2 aufgespannt.

Falls die Geraden aufeinander fallen bilden sie eine sogenannte DoppelgeradeDoppelgeraden .Dann hat C nur noch den Rang 1.

Der degenerierte LinienkegelschnittdegenerierteLinienkegelschnitt

kann analog aus zwei Punkten (C hat Rang2) oder einem doppelten Punkt (C hat Rang 1) bestehen. Seien x1 und x2 zweiPunkte, dann ist der zum Punktkegelschnitt duale Linienkegelschnitt

C∗ = x1x�2 + x2x�

1 .

Page 111: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.2. KEGELSCHNITTE, KEGEL UND QUADRIKEN 53

Für Geraden durch x1 oder x2 gilt dann l�x1 = 0 oder l�x2 = 0. Daraus folgt:

l�C∗l = l�(x1x�2 + x2x�

1 )l = 0.

Die beiden Punktkegelschnitte sind in Abbildung 1.16 noch einmal schematischdargestellt.

Abbildung 1.16: Degenerierte Kegelschnitte. Der linke Kegelschnitt ist ein degenerierterPunktkegelschnitt aus zwei Geraden. Die Schnittebene verläuft durch die Kegelachse. Derrechte Kegelschnitt ist ein degenerierter Punktkegelschnitt aus Doppelgeraden. Hierbeiberührt die Schnittebene den Kegel nur tangential.

Transformation von Kegelschnitten

In Abschnitt 1.1.2 zu den planaren projektiven Transformationen wurden dieprojektiven Transformationen von Punkten und Linien eingeführt. Analog ver-hält es sich mit der Transformation von Kegelschnitten. Die Transformation

Transformationvon Kegelschnitten

von Kegelschnitten kann durch die Transformation von homogenen 3-Vektoren(Punkten) beschrieben werden.

Definition 1.17 (Transformation von Kegelschnitten – 2D).

Es sei H eine invertierbare 3×3-Homographiematrix zur Punkttransfor-mation x′ = Hx. Dann ist die Transformation des Kegelschnittsdefiniert als

C ′ = H−�CH−1.

Diese Definition lässt sich folgendermaßen motivieren. Es gilt:

x�Cx = x′�[H−1

]�

CH−1x′ = x′�H−�CH−1x′.

Mit C ′ = H−�CH−1 gilt dann x�Cx = x′�C ′x.

Analoges gilt für den dualen Kegelschnitt. Transformationvon dualenKegelschnitten

Page 112: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

54 KURSEINHEIT 1. GEOMETRISCHE GRUNDLAGEN

Definition 1.18 (Transformation von dualen Kegelschnitten – 2D).

Es sei H eine invertierbare 3×3-Homographiematrix zur Punkttransfor-mation x′ = Hx. Dann ist die Transformation des dualen Kegel-schnitts definiert als

C∗′ = HC∗H�.

1.2.2 Metrische Rektifizierung:Der duale Kegelschnitt C∗

Der eigentliche Grund, warum Kegelschnitte so wichtig für die metrische Rek-tifizierung sind, wird sich erst in Kurseinheit 2 zeigen. Daher wird an dieserStelle nur die rein mathematische Herleitung eines speziellen Kegelschnitts er-folgen.

Zirkularpunkte

Auf der Geraden im Unendlichen l∞ gibt es zwei spezielle Punkte, genanntabsolute Punkteabsolute Punkte oder auch Zirkularpunkte (engl. circular points). Diese beidenPunkte haben komplexe Koordinaten

i =

⎛⎜⎝1i0

⎞⎟⎠ und j =

⎛⎜⎝ 1−i0

⎞⎟⎠ ,

wobei i die imaginäre Einheit12 ist (vgl. Kurseinheit 2 in „Interaktive Syste-me I“).

Merksatz 1.2 (Invarianz der Zirkularpunkte). Die Besonderheit desPaares aus Zirkularpunkten ist, dass sie unter einer ähnlichen Trans-formation unveränderlich sind.

Das lässt sich wie folgt zeigen:

i′ = HSi

=

⎡⎢⎣s cos θ −s sin θ tx

s sin θ s cos θ ty

0 0 1

⎤⎥⎦⎛⎜⎝1

i0

⎞⎟⎠Bedingt durch die Null als letztes Element des Vektors hat die letzte Spalteder Matrix keinen Einfluss auf das Ergebnis. Daher gilt äquivalent:

=

⎡⎢⎣s cos θ −s sin θ 0s sin θ s cos θ 0

0 0 0

⎤⎥⎦⎛⎜⎝1

i0

⎞⎟⎠12Wir erinnern uns, es gilt: i2 = −1.

Page 113: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.2. KEGELSCHNITTE, KEGEL UND QUADRIKEN 55

Damit lässt sich s als Skalar aus der Matrix ziehen:

= s

⎡⎢⎣cos θ − sin θ 0sin θ cos θ 0

0 0 0

⎤⎥⎦⎛⎜⎝1

i0

⎞⎟⎠Aufgrund der eulerschen Formel eiθ = cos θ + i sin θ lässt sich die Gleichungweiter reduzieren:

= se−iθ

⎛⎜⎝1i0

⎞⎟⎠= i,

denn se−iθ ist nur noch ein zu vernachlässigender Skalierungsfaktor.

Der Name dieser Punkte rührt im Übrigen daher, dass jeder Kreis die Geradenim Unendlichen genau in diesen beiden Punkten schneidet. Das ist schwervorstellbar. Daher wird diese Eigenschaft nachfolgend über einen Kegelschnittbeschrieben. Die Gleichung für einen Kegelschnitt ist

ax2

1 + bx1x2 + cx2

2 + dx1x3 + ex2x3 + fx2

3 = 0.

Für den Fall, dass der Kegelschnitt ein Kreis sein soll gilt a = c und b = 0:

ax2

1 + cx2

2 + dx1x3 + ex2x3 + fx2

3 = 0.

Da x3 in homogenen Koordinaten ein Skalierungsfaktor ist, kann dieser freigewählt werden. So schneidet der Kegelschnitt speziell für x3 = 0 die Geradeim Unendlichen und hat die Form:

ax2

1 + cx2

2 = 0.

Da a = c ist, beeinflussen die Parameter die Lösung nicht. Somit gilt:

x2

1 + x2

2 = 0.

Die Punkte i = (1, i, 0)� und j = (1, −i, 0)� erfüllen genau diesen Fall undliegen demnach auf dem Kreis, der die Geraden im Unendlichen scheidet.

Der entscheidende Punkt, warum die Zirkularpunkte eine Identifikation eu-klidischer Merkmale ermöglichen ist, dass algebraisch betrachtet, die Kreis-punkte die orthogonalen Richtungen der euklidischen Geometrie, (1, 0, 0)� und(0, 1, 0)� enthalten:

i = (1, 0, 0)� + i(0, 1, 0)�

Der duale Kegelschnitt C∗∞

Passend zu den Kreispunkten gibt es einen dualen Kegelschnitt

C∗∞ = ij� + ji�

Page 114: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

56 KURSEINHEIT 1. GEOMETRISCHE GRUNDLAGEN

Dies ist ein degenerierter Kegelschnitt mit Rang 2, der aus den beiden Kreis-punkten besteht. In einem euklidischen Koordinatensystem ist dieser Kegel-schnitt:

C∗∞ =

⎛⎜⎝1i0

⎞⎟⎠ (1 −i 0

)+

⎛⎜⎝ 1−i0

⎞⎟⎠ (1 i 0

)=

⎡⎢⎣2 0 00 2 00 0 0

⎤⎥⎦ =

⎡⎢⎣1 0 00 1 00 0 0

⎤⎥⎦ .

Da es sich hier um einen degenerierten Kegelschnitt handelt, kann die drit-te Komponente vernachlässigt werden. Für die übrige (2 × 2)-Matrix kannein Faktor wieder als Skalierungsfaktor angenommen werden, sodass wir ohneEinschränkung die Matrix mit den 1-Einträgen verwenden dürfen.

Merksatz 1.3 (Invarianz des dualen Kegelschnitts). Analog zu den Zir-kularpunkten ist der Kegelschnitt bezüglich einer ähnlichen Transforma-tion unveränderlich, so dass gilt:

C∗∞

′ = HSC∗∞H�

S = C∗∞.

Wir können also zusammenfassen, dass der duale Kegelschnitt C∗∞ geschickt

alle Eigenschaften vereint, die für eine metrische Rektifizierung benötigt wer-den.

Die Frage ist nur, wie C∗∞ beziehungsweise C∗

∞′ im projektiv verzerrten Bild

bestimmt werden kann.

Bestimmung von C∗∞

In der euklidischen Geometrie wird der Winkel zwischen zwei Geraden durchdas Skalarprodukt ihrer Normalenvektoren berechnet. Seien l = (l1, l2, l3)� undm = (m1, m2, m3)� zwei Geraden, dann sind die Normalenvektoren paralleleGeraden zu (l1, l2)� und (m1, m2)�. Entsprechend ist der Winkel zwischen denGeraden gegeben durch

cos θ =l1m1 + l2m2√

(l21 + l2

2)(m21 + m2

2). (1.5)

Das Problem an diesem Ausdruck ist, dass die Geraden l und m keine winkel-erhaltenden Eigenschaften innerhalb projektiver Transformationen haben, sodass nach einer projektiven Transformation die Winkel nicht auf diese Weiseberechnet werden können.

Ein zu Gleichung 1.5 analoger Ausdruck, welcher jedoch im Gegensatz zu dieserGleichung invariant gegenüber der projektiven Transformation ist, ist

cos θ =lC∗

∞m√(lC∗

∞l)(mC∗∞m)

. (1.6)

Page 115: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.2. KEGELSCHNITTE, KEGEL UND QUADRIKEN 57

Wie bereits gezeigt wurde, entspricht der duale Kegelschnitt C∗∞ im euklidi-

schen Fall ⎡⎢⎣1 0 00 1 00 0 0

⎤⎥⎦wodurch aus Gleichung 1.6 die Gleichung 1.5 wird. Daher muss noch gezeigtwerden, dass die Gleichung 1.6 tatsächlich invariant gegenüber der projektivenTransformation ist. Mithilfe der Transformation von Geraden (l′ = H−�l) undder Transformation des dualen Kegelschnitts (Definition 1.18: C∗′ = HC∗H�)gilt:

l′�C∗∞

′m′ = (H−�l)�(HC∗∞H�)H−�m

= l�(H−1H)C∗∞(H�H−�)m

= l�C∗∞m

Entscheidend ist jetzt die Erkenntnis, dass das Skalarprodukt zweier orthogo-naler Geraden in der euklidischen Geometrie 0 ist. Das bedeutet, dass auch dieSkalarprodukte von l�C∗

∞m = 0 und (besonders wichtig) l′�C∗∞

′m′ = 0 sind,falls l und m in der euklidischen Geometrie orthogonal zueinander sind.

Ausgehend vom projektiv verzerrten Bild lässt sich so der duale Kegelschnittund eine euklidische Rektifizierung berechnen. Ein Kegelschnitt hat entspre-chend dem Verhältnis der Parameter (a : b : c : d : e : f) 5 Freiheitsgrade undeinen Skalierungsfaktor. Lassen sich im projektiv verzerrten Bild 5 orthogonaleGeradenpaare l′

i und m′i identifizieren, kann darüber das lineare Gleichungs-

systeml′�i C∗

′m′i = 0, mit i = 1, . . . , 5

und damit C∗∞ bestimmt werden.

Dies soll an einem kleinen Beispiel gezeigt werden. Gegeben sind 5 Quadratein einer Ebene (siehe Abbildung 1.17 links) und deren projektive Verzerrung(Abbildung 1.17 rechts).

Die Berechnung des dualen Kegelschnitt C∗∞

′ erfolgt in den folgenden Schritten:

1. Bestimmung der 5 Pixelkoordinaten-Triplets pi1, pi2 und pi3, mit i =1, . . . , 5 zu den orthogonalen Linienpaaren.

2. Um numerische Probleme zu minimieren, sollten die Pixelkoordinaten indas Intervall [−1, 1] × [−1, 1] normalisiert werden: p′

i1, p′i2 und p′

i3.

3. Aus den normalisierten homogenen Koordinaten lassen sich dann dieGeraden-Paare berechnen: l′

i = p′i1 × p′

i2 und m′i = p′

i2 × p′i3.

4. Damit lässt sich das lineare Gleichungssystem l′�i C∗

∞′m′

i = 0, mit i =1, . . . , 5 aufstellen:(

l′i1m

′i1,

l′i1

m′

i2+l′

i2m′

i1

2, l′

i2m′i2,

l′i1

m′

i3+l′

i3m′

i1

2,

l′i2

m′

i3+l′

i3m′

i2

2, l′

i3m′i3

)c = 0 ,

wobei c = (a, b, c, d, e, f)� der Koeffizienten-Vektor des Kegelschnitts ist.

Page 116: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

58 KURSEINHEIT 1. GEOMETRISCHE GRUNDLAGEN

Abbildung 1.17: Beispiel für metrische Rektifizierung. In der linken Abbildung sind diefünf Quadrate in der Ebene dargestellt. In der rechten Abbildung sind die Quadrate per-spektivisch Verzerrt und die Gerade im Unendlichen durch einen Farbverlauf angedeutet.Die gelben Linien bilden jeweils Paare orthogonaler Geraden und ihrer Projektion. Indemdiese Paare in der projektiven Abbildung identifiziert werden können, lässt sich der dualeKegelschnitt C∗

∞′ bestimmen.

5. Das lineare Gleichungssystem lässt sich zum Beispiel durch die Singulär-wertzerlegung bestimmen13.

Falls Sie die einzelnen Schritte einmal in einem kleinen Programm nach-bilden wollen, können Sie zur Kontrolle die orthogonalen Geraden im lin-ken Bild verwendet. Abgesehen von numerischen Ungenauigkeiten sollte c ≈(1, 0, 1, 0, 0, 0)� sein. Mit den Geraden aus dem rechten Bild können Sie danndirekt die metrische Rektifizierung durchführen.

1.2.3 Quadriken

In Analogie zum Kegelschnitt, der eine Kurve in der Ebene beschreibt ist eineQuadrikQuadrik eine Fläche im dreidimensionalen Raum. In Abbildung 1.18 sind einigeQuadriken dargestellt.

Die zugehörige quadratische Gleichung ist:

ax2 + bxy + cxz + dy2 + eyz + fz2 + gx + hy + iz + j = 0.

Die entsprechende Punktgleichung der Quadrik im P3 lautet:

X �QX = 0.

Dabei handelt es sich um eine symmetrische 4 × 4-Matrix. Viele Eigenschaftenvon Quadriken folgen direkt aus den Eigenschaften der Kegelschnitte:

13Genaueres folgt noch in Kurseinheit 2. Das grundsätzliche Prinzip ist jedoch immerfolgendes: Hat ein lineares Gleichungssystem die Form Ax = 0, so lässt sich die Matrix A

mithilfe der Singulärwertzerlegung in A = UDV � zerlegen. Die Matrix D enthält dabeinur Diagonalelemente, die sogenannten Singulärwerte. Die Spalte der Matrix V , die zumkleinsten Singulärwert gehört, enthält eine fehlerminimale Lösung für x. Das ist vor allemdann interessant, wenn das Gleichungssystem überbestimmt ist.

Page 117: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.2. KEGELSCHNITTE, KEGEL UND QUADRIKEN 59

Abbildung 1.18: Quadriken. Die Abbildung zeigt exemplarisch einige Quadriken. Dassind von links nach rechts eine Kugel, ein Ellipsoid, ein Paraboloid und ein zweiseitigerHyperboloid.

• Quadriken haben 9 Freiheitsgrade – 16 Parameter, weniger 6 für dieSymmetrie, weniger einem für die Skalierung.

• Eine nicht degenerierte Quadrik hat im allgemeinen den Rang 4.

• Das duale Element Q∗ einer Quadrik Q ist ebenfalls eine Quadrik.

• Eine Ebene Π mitΠ

�Q∗Π = 0

berührt die Quadrik tangential.

• Jede Ebene schneidet eine Quadrik in einem Kegelschnitt.

• Unter einer Punkt-Transformation X ′ = HX ist die korrespondierendeQuadrik

Q′ = H−�QH−1.

• Unter einer Punkt-Transformation X ′ = HX ist die korrespondierendeduale Quadrik

Q∗′ = HQ∗H�.

Der absolute Kegelschnitt

Der absolute Kegelschnitt, Ω∞, ist ein Kegelschnitt auf der Ebene im Unendli-chen Π∞. Er ist das Gegenstück zu den absoluten Punkten, den Zirkularpunk-ten im P

2.

Definition 1.19 (Absoluter Kegelschnitt).

Im P3 ist der absolute Kegelschnitt Ω∞ ein Kegelschnitt auf der Ebene

im Unendlichen Π∞. Ein Punkt X = (X 1, X 2, X 3, X 4)� liegt auf Ω∞, wenn

er die folgenden Bedingungen erfüllt:

X2

1 + X2

2 + X2

3 = 0 und X 4 = 0.

Page 118: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

60 KURSEINHEIT 1. GEOMETRISCHE GRUNDLAGEN

Für Richtungsvektoren auf Π∞, d. h. für Vektoren mit X 4 = 0, kann die Glei-chung durch

(X 1, X 2, X 3) I (X 1, X 2, X 3)� = 0

dargestellt werden, so dass Ω∞ zu einem Kegelschnitt C = I korrespondiert.Ω∞ kann nur Punkte mit imaginären Koordinaten enthalten.

Die für uns wichtigste Eigenschaft des absoluten Kegelschnitts ist jedoch diefolgende:

Merksatz 1.4 (Invarianz des absoluten Kegelschnitts). Der absoluteKegelschnitt Ω∞ bleibt unter einer projektiven Transformation H genaudann unveränderlich, wenn H eine Ähnlichkeitstransformation ist.

Auf einen Beweis soll an dieser Stelle verzichtet werden.

Hinweis: Da der projektive Raum P3 vier Dimensionen hat und der absolu-

te Kegelschnitt nur imaginäre Koordinaten enthalten kann, ist eine visuelleDarstellung desgleichen so gut wie nicht machbar. Betrachten Sie daher denabsoluten Kegelschnitt und nachfolgend die absolute duale Quadrik als ein„elegantes“ mathematisches Werkzeug die Eigenschaften des dreidimensiona-len euklidischen Raumes innerhalb einer projektiven Abbildung zu erhalten.

Analog zum Kegelschnitt in der Ebene soll nun gezeigt werden, dass sich me-trische Eigenschaften, wie Winkel, direkt ableiten lassen, sobald der absoluteKegelschnitt bekannt ist. Angenommen d1 und d2 sind zwei Richtungsvekto-ren im dreidimensionalen euklidischen Raum. Dann kann der Winkel wie folgtbestimmt werden:

cos θ =d�

1 d2√(d�

1 d2)(d�2 d2)

.

Um die Gleichung invariant gegenüber der Transformation zu machen, kanndiese analog zu Gleichung 1.6 zu

cos θ =d�

1 Ω∞d2√(d�

1 Ω∞d2)(d�2 Ω∞d2)

.

umgestellt werden.

In der euklidischen Geometrie ist Ω∞ = I. Daraus ergibt sich entsprechendzu den Kegelschnitten, dass zwei Richtungsvektoren d1 und d2 orthogonalzueinander liegen, wenn d�

1 Ω∞d2 = 0.

Orthogonalität und Polarität

Basierend auf dem Kegelschnitt lässt sich eine geometrische Repräsentation derOrthogonalität im projektiven Raum beschreiben. Dazu werden die BegriffePolPol und Polare und Polare benötigt, die über den Kegelschnitt eine eindeutig umkehrbareRelation zwischen Punkten einer Ebene darstellen.

Page 119: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.2. KEGELSCHNITTE, KEGEL UND QUADRIKEN 61

Und zwar gibt es zu jedem Punkt außerhalb eines nicht entarteten Kegel-schnitts stets zwei Tangenten, die diesen Punkt schneiden. Dieser Punkt wirdPol genannt. Die Gerade, die durch die beiden Berührungspunkte der Tangen-ten am Kegelschnitt verläuft, wird Polare genannt. Diese Begriffe sind nocheinmal in Abbildung 1.19 zusammengefasst.

Abbildung 1.19: Pol und Polare.

Wie bereits geklärt wurde, sind zwei Geraden d1 und d2 orthogonal, wennd�

1 Ω∞d2 = 0. Zwischen der Orthogonalität von d1 und d2 und der Polaritätihrer Fluchtpunkte bezüglich des absoluten Kegelschnitts Ω∞ besteht ein Zu-sammenhang, der sich wie in Abbildung 1.20 gezeigt geometrisch darstellenlässt: Jeder Punkt auf der Ebene im Unendlichen Π∞ steht genau für eineRichtung paralleler Geraden im Raum. Für eine Gerade mit dem FluchtpunktP1 auf der Ebene im Unendlichen gilt, dass alle Geraden mit Fluchtpunk-ten auf der korrespondierenden Polaren – also zum Beispiel Geraden mit demFluchtpunkt P2 – orthogonal zu dieser Geraden sind.

Abbildung 1.20: Orthogonalität und Polarität. Jeder Punkt auf der Ebene im Unendlichenentspricht einer Richtung im euklidischen Raum. Sei p1 der Fluchtpunkt zu einer dieserRichtungen. Der absolute Kegelschnitt Ω∞ repräsentiert die Abbildung zwischen demeuklidischen und dem projektiven Raum. Dabei spielt die Polare zu p1 als Pol bezüglichΩ∞ eine besondere Rolle:

Ein beliebiger Punkt p2 auf der Polaren entspricht einer Richtung im euklidischen Raum,die zur Richtung von p1 orthogonal ist.

Page 120: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

62 KURSEINHEIT 1. GEOMETRISCHE GRUNDLAGEN

Die absolute duale Quadrik

Das Gegenstück zum absoluten Kegelschnitt ist eine degenerierte Quadrik mitder Bezeichnung absolute duale Quadrikabsolute duale

QuadrikQ∗

∞. Geometrisch besteht Q∗∞ aus

Ebenen tangential zu Ω∞. Da Ω∞ ein Kegelschnitt in einer Ebene ist, gibt eszu jedem Punkt des Kegelschnitts unendlich viele Ebenen, die um die Tangentedes Punktes rotiert liegen.

Algebraisch wird Q∗∞ durch eine 4×4-Matrix mit Rang 3 repräsentiert, welche

im betrachteten dreidimensionalen euklidischen Raum die folgende Form hat:

Q∗∞ =

[I 0

0� 0

].

Wie bereits erwähnt ist Q∗∞ eine degenerierte Quadrik mit 16 Elementen. Die

absolute duale Quadrik ist jedoch symmetrisch, wodurch sich 10 unabhängi-ge Elemente ergeben. Da auch hier die Skalierung keine Rolle spielt und dieMatrix nur den Rang 3 hat, was die unabhängigen Elemente jeweils um 1reduziert, ergeben sich schließlich 8 Freiheitsgrade.

Wie schon beim dualen Kegelschnitt besitzt die absolute duale Quadrik diefolgenden Eigenschaften. Eine Herleitung oder ein Beweis dieser Eigenschaftensoll es an dieser Stelle nicht geben.

Merksatz 1.5 (Invarianz der absoluten dualen Quadrik). Die absoluteduale Quadrik Q∗

∞ bleibt unter einer projektiven Transformation H ge-nau dann unveränderlich, wenn H eine Ähnlichkeitstransformation ist.

Und für die Bestimmung euklidischer Eigenschaften besonders wichtig:

Merksatz 1.6 (Winkel zwischen Ebenen). Der Winkel zwischen zweiEbenen Π1 und Π2 ist gegeben durch:

cos θ =Π

�1 Q∗

∞Π2√(Π

�1 Q∗

∞Π2)(Π�2 Q∗

∞Π2).

In diesem Abschnitt haben Sie wichtige geometrische Konzepte kennengelernt,die es Ihnen ermöglichen aus einer projektiven Abbildung – zwei- oder drei-dimensional – euklidische Eigenschaften, wie Winkelmaße und Parallelität zurekonstruieren. Sie sollten wissen, dass es Kegelschnitte und Quadriken mitspeziellen Eigenschaften gibt, wie diese aufgebaut sind und wie sie sich auseiner projektiven Abbildung herleiten lassen. Im Moment können wir diesesWissen noch nicht anwenden. In Kurseinheit 2 wird es jedoch im Kontext derKamerakalibrierung verwendet werden.

Page 121: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.3. KAMERA 63

1.3 Kamera

Lernziele:In diesem Abschnitt lernen Sie, wie mithilfe einer mathematischenBeschreibung dreidimensionale Objekte auf eine zweidimensiona-le Ebene abgebildet werden können. Dazu lernen Sie zunächst dieLochkamera kennen, die dem Kameramodell der projektiven Ka-mera in grafischen Systemen sehr ähnlich ist. Projektive Kame-ras besitzen zumeist ihr eigenes Koordinatensystem. Daher ler-nen Sie in einem kurzen Abschnitt die Differenzierung zwischendem Weltkoordinatensystem und lokalen Koordinatensystemen,wie dem Kamerakoordinatensystem, kennen und warum die loka-len Koordinatensysteme durchaus sinnvoll und effizient sind.Im Kontext der projektiven Kamera lernen Sie die unterschiedli-chen Eigenschaften des Modells, die in intrinsische und extrinsi-sche Eigenschaften unterteilt werden, kennen und welche Wirkungsie auf die projektive Abbildung haben. All diese Eigenschaftenwerden in einer Matrix, der Kameramatrix, zusammengefasst.

Eine Kamera ist eine Abbildung der dreidimensionalen euklidischen Welt aufeine zweidimensionale Bildebene. Das zugrunde liegende Prinzip beschäftigtdie Menschen schon seit Jahrhunderten. Schon Aristoteles beschrieb die Pro-jektion von realen Objekten durch ein kleines Loch auf eine Wand in einemdunklen Raum. Dieser Raum, auch als Camera obscura Camera obscurabekannt, ist in derAbbildung 1.21 dargestellt.

Abbildung 1.21: Camera obscura. Dieser Stich stammt aus einem Manuskript mit mili-tärischen Skizzen aus dem 17. Jahrhundert. Der oder die Künstler/-in ist nicht bekannt.(Bild: Wikipedia: Camera obscura; Public Domain)

1.3.1 Die Lochkamera

Eine Erkenntnis, die sich aus der Beschreibung der Camera obscura ergab,war, dass ein Bild auf einer Ebene entsteht, wenn alle Lichtstrahlen durch

Page 122: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

64 KURSEINHEIT 1. GEOMETRISCHE GRUNDLAGEN

ein gemeinsames Zentrum strahlen müssen. Dieses Zentrum, auch BrennpunktBrennpunkt genannt, ist bei der Camera obscura ein Loch. Daher spricht man bei dieser

Art Kamera auch von der sogenannten LochkameraLochkamera .

Abbildung 1.22 zeigt den schematischen Aufbau einer Lochkamera.

Abbildung 1.22: Lochkamera. Diese schematische Darstellung zeigt die Funktionsweiseeiner Lochkamera. Dabei verlaufen alle Lichtstrahlen durch einen gemeinsamen Punkt,den Brennpunkt. Die Abbildung ist dadurch stets eine Punktspiegelung des Originals.(Bild: Skizze der Burg: Wikipedia, Andreas Rockstein; CC-Lizenz)

Bei der Lochkamera befindet sich die Abbildung bezüglich des realen Objekteshinter dem Brennpunkt. Zudem steht die Abbildung auf dem Kopf und istseitenverkehrt. Für die folgenden Betrachtungen verschieben wir die Projek-tionsfläche entlang der Tiefenachse genau im gleichen Abstand auf die demrealen Objekt zugewandte Seite. Damit verändern sich die Eigenschaften derKamera nicht, d. h. das Bild besitzt exakt die gleichen Proportionen, hat aberjetzt die gleiche Orientierung wie das Original. Das Ergebnis ist in Abbildung1.23 zu sehen. Technisch lässt sich eine derartige Anordnung natürlich nichtumsetzen. Das spielt jedoch für die mathematische Betrachtung der Kamerakeine Rolle.

Abbildung 1.23: Lochkamera mit verschobener Projektionsebene. Diese schematischeDarstellung stellt die Lochkamera mit einer zum Objekt hin verschobenen Projektions-ebene dar.(Bild: Skizze der Burg: Wikipedia, Andreas Rockstein; CC-Lizenz)

Die Distanz zwischen dem Brennpunkt und der Projektionsebene wird Brenn-weiteBrennweite genannt und meist mit dem kleinen Buchstaben f gekennzeichnet. Das

Page 123: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.3. KAMERA 65

Modell der Lochkamera können wir nun beschreiben. Angenommen die Pro-jektionsebene, die übrigens auch Bildebene Bildebenegenannt wird, liegt bei z = f , dannwerden beliebige Punkte im Raum mit den Koordinaten x = (x, y, z)� auf dieKoordinaten im Raum (fx/z, fy/z, f)� abgebildet. Da die z-Koordinate die-ser Punkte mit z = f konstant (festgelegt) ist, liegen die Punkte alle auf einerEbene. Deswegen kann die z-Koordinate ignoriert werden und wir erhalten diefolgende Abbildung für die Koordinaten auf der Bildebene:

(x, y, z)� → (fx/z, fy/z)�.

Dieser Zusammenhang wird noch einmal in Abbildung 1.24 für die y-Koordinate schematisch dargestellt.

Abbildung 1.24: Lochkamera-Modell für y-Koordinate. Diese schematische Darstellungzeigt die Abbildung eines Punktes im Raum auf die Projektionsebene p, die sich inBrennweite f vor dem Brennpunkt befindet.

Nachfolgend werden wir den Brennpunkt nicht mehr als Brennpunkt bezeich-nen, sondern als Kamerazentrum Kamerazentrum. Das Kamerazentrum wird typischerweise mitC bezeichnet. Da die „Blickrichtung“ der Kamera nicht zwingend entlang derz-Achse verlaufen muss, wird diese Achse so definiert, dass sie orthogonal zurProjektionsebene durch das Kamerazentrum verläuft. Diese „Blickrichtung“ist die optische Achse optische Achse(engl. principal axis). Der Punkt, in welchem sich dieoptische Achse und die Bildebene schneiden, wird Hauptpunkt Hauptpunktder Kameragenannt (engl. principal point). Schließlich gibt es noch die Ebene durch dasKamerazentrum, parallel zur Bildebene. Sie wird Brennebene Brennebenegenannt (engl.principal plane).

1.3.2 Exkurs Koordinatensysteme

Im letzten Abschnitt wurde angedeutet, dass die optische Achse einer Kameranicht zwingend entlang der z-Achse verlaufen muss. Dabei wurde jedoch keinWort über das zugrunde liegende Koordinatensystem verloren. Und das hatteeinen Grund. . .

Weltkoordinatensystem

Angenommen es existiert nur ein Koordinatensystem. Dann werden alle Ob-jekte gemäß diesem einen Koordinatensystems ausgerichtet. Dann wäre die in

Page 124: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

66 KURSEINHEIT 1. GEOMETRISCHE GRUNDLAGEN

Abschnitt 1.3.1 getätigte Aussage bezüglich der optischen Achse einer Kamerarichtig. Es hat sich jedoch in der Praxis gezeigt, dass sich dreidimensionaleRäume viel leichter beschreiben und interpretieren lassen, wenn Objekte ihreeigenen Koordinatensysteme besitzen. Nehmen wir zum Beispiel das dreidi-mensionale Modell eines primitiven Objektes wie einen Würfel. Ein Würfelkann durch seine acht Eckpunkte im Raum beschrieben werden. Das könnenin einem einfachen Fall die folgenden Koordinaten sein:

(0, 0, 0); (0, 0, 1); (0, 1, 0); (0, 1, 1); (1, 0, 0); (1, 0, 1); (1, 1, 0); (1, 1, 1)

Wenn dieser Würfel jedoch nicht parallel zu den Koordinatenachsen liegt, sichnicht am Ursprung befindet und auch nicht die Kantenlänge eins haben soll,wird es kompliziert – es sei denn, der Würfel, in Form der Koordinaten deracht Eckpunkte, hat sein eigenes Koordinatensystem, das skaliert, gedreht undverschoben werden kann.

Da es auf diese Weise mehrere dieser Koordinatensysteme geben kann, benö-tigen die Koordinatensysteme untereinander eine BezugsgrößeWeltkoordinaten-

system. Diese Bezugs-

größe ist auch wieder ein Koordinatensystem: das Weltkoordinatensystem.

Kamerakoordinatensystem

Natürlich beschränkt sich die Nutzung unterschiedlicher Koordinatensystemenicht auf Objekte. Auch jede Kamera kann ihr eigenesKamerakoordi-

natensystemKoordinatensystem

haben. Dieses Kamerakoordinatensystem wird in der Regel so definiert, dass

• das Kamerazentrum im Ursprung des Koordinatensystems liegt,

• die z-Achse parallel zur optischen Achse verläuft,

• die x-Achse bezüglich der Bildebene nach rechts zeigt und

• die y-Achse bezüglich der Bildebene nach oben zeigt.

1.3.3 Die projektive Kamera

Über die Transformation der Koordinatensysteme lässt sich jeder Punkt eineslokalen Koordinatensystems in Weltkoordinaten umrechnen. Daher gehen wirzunächst von Punkten in Weltkoordinaten aus und leiten darauf aufbauend imnachfolgenden Abschnitt die Transformation mithilfe einer projektiven Kameraher.

Externe Transformation des Kamerakoordinatensystems

Wir lassen zunächst die Skalierung außer Acht und betrachten die Möglichkeitdie Koordinaten eines Punktes in Weltkoordinaten in ein Kamerakoordina-tensystem einer zum Ursprung des Weltkoordinatensystems verschobenen undgedrehten Kamera zu berechnen.

Page 125: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.3. KAMERA 67

Gegeben ist der Ursprung des Kamerakoordinatensystems c in inhomogenenWeltkoordinaten. Zudem sei R eine 3 × 3-Rotationsmatrix, welche die Ro-tation des Kamerakoordinatensystems bezüglich des Weltkoordinatensystemsbeschreibt.

Zur Erinnerung: In Abschnitt 1.1.3 „Isometrie und die euklidische Transfor-mation“ wurden Rotation und Translation im zweidimensionalen euklidischenRaum wie folgt definiert:⎛⎜⎝x′

y′

1

⎞⎟⎠ =

⎡⎢⎣cos θ − sin θ tx

sin θ cos θ ty

0 0 1

⎤⎥⎦⎛⎜⎝x

y1

⎞⎟⎠ .

Dabei ist [cos θ − sin θsin θ cos θ

]= R

die Rotationsmatrix und (tx

ty

)= t

der Translationsvektor.

Analog sieht eine euklidische Transformation im dreidimensionalen Raum fol-gendermaßen aus:

Definition 1.20 (Euklidische Transformation – 3D).

Die euklidische Transformation im dreidimensionalen Raum ist:⎛⎜⎜⎜⎝X

Y′

Z′

1

⎞⎟⎟⎟⎠ =

[R t0� 1

] ⎛⎜⎜⎜⎝X

Y

Z

1

⎞⎟⎟⎟⎠

Es gibt mehrere Möglichkeiten eine Rotation im dreidimensionalen Raum zubeschreiben. Eine einfache Variante ist die Auftrennung der Gesamtrotation inRotationen um die drei Koordinatenachsen:

Rx =

⎡⎢⎣1 0 00 cos φ − sin φ0 sin φ cos φ

⎤⎥⎦ Rotation um die x-Achse,

Ry =

⎡⎢⎣ cos θ 0 sin θ0 1 0

− sin θ 0 cos θ

⎤⎥⎦ Rotation um die y-Achse,

Rz =

⎡⎢⎣cos ψ − sin ψ 0sin ψ cos ψ 0

0 0 1

⎤⎥⎦ Rotation um die z-Achse.

Dann lässt sich die Rotationsmatrix als

R = RxRyRz

Page 126: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

68 KURSEINHEIT 1. GEOMETRISCHE GRUNDLAGEN

Abbildung 1.25: Umwandlung der Koordinatensysteme. Um einen in Weltkoordinatenüber den Vektor xw beschriebenen Punkt in das Kamerakoordinatensystem zu transfor-mieren, wird der Vektor vom Ursprung des Kamerakoordinatensystems c (welcher sichauf das Weltkoordinatensystem bezieht) zum Punkt x bestimmt und passend zum Ka-merakoordinatensystem gedreht. Anschließend kann mithilfe des resultierenden Vektorsxc die Projektion auf die Bildebene durchgeführt werden (pc).

beschreiben.

Um nun einen in inhomogenen Weltkoordinaten durch xw beschriebenen Punktin das Kamerakoordinatensystem zu transformieren, wird der Vektor vom Ur-sprung des Kamerakoordinatensystems zum Punkt xw bestimmt und anschlie-ßend entsprechend der Rotation der Kamera gedreht (siehe Abbildung 1.25):

xc = R(xw − c).

Diese Gleichung entspricht in homogenen Koordinaten:

Xc =

[R −Rc0 1

] ⎛⎜⎜⎜⎝xw1

xw2

xw3

1

⎞⎟⎟⎟⎠ =

[R −Rc0 1

]Xw = DXw.

Dieexterne Parameter Matrix R und der Vektor c haben je drei Freiheitsgrade und beschreibendie sogenannten externen Parameter einer Kamera. Die aus R und c zusam-mengefasste Matrix D nennt sich extrinsische Matrixextrinsische Matrix .

Interne Transformation des Kamerakoordinatensystems

Bei der externen Transformation in das Kamerakoordinatensystem werdennoch keine projektiven Transformationen durchgeführt. Dies wird jetzt nach-geholt.

Hinweis: Um nachfolgend die Koordinaten in der Bildebene leichter von dendreidimensionalen Koordinaten im Raum unterscheiden zu können, werden wirdas horizontale Äquivalent zu x mit u und das vertikale Äquivalent zu y mitv bezeichnen.

Angenommen die Kamera hat eine Brennweite f . Dann stehen die Koordinateneines Punktes xc = (xc1, xc2, xc3)� ∈ R

3 zu den homogenen Bildkoordinaten

Page 127: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.3. KAMERA 69

des projizierten Punktes pc = (u, v, w)� ∈ P2 in folgendem Verhältnis zuein-

ander:u

xc1

=v

xc2

=w

xc3

=f

xc3

.

Daraus ergibt sich folgende Gleichung:

⎛⎜⎝uvw

⎞⎟⎠ =

⎡⎢⎣f 0 0 00 f 0 00 0 1 0

⎤⎥⎦⎛⎜⎜⎜⎝

xc1

xc2

xc3

1

⎞⎟⎟⎟⎠ .

So ergeben sich die folgenden inhomogenen Bildkoordinaten: x = u/w undy = v/w, wobei w �= 0 gelten muss.

Die Brennweite gehört zu den internen Kameraparametern interne Parameter, welche die intrinsi-sche Matrix intrinsische Matrixbilden. Zu den inneren Parametern einer allgemeinen projektivenTransformation gehören noch drei weitere Eigenschaften.

Die erste Eigenschaft, die zur intrinsischen Matrix hinzugenommen wird, istdie Skalierung der Koordinaten der Bildebene. Diese wird zum Beispiel bei derUmrechnung metrischer Koordinaten in Bildkoordinaten für die korrespondie-renden Pixel in einem Rasterbild verwendet. Angenommen die Kamera hateine Sensorgröße von 22.2mm × 14.8mm, was der Größe eines Sensors einerdigitalen Kleinbild-Spiegelreflexkamera entspricht. Dann liegen die x- und y-Werte logischerweise in einem Intervall von [−11.1, 11.1], bzw. [−7.4, 7.4]. Solldas resultierende Rasterbild eine Auflösung von 1200×800 Pixel haben, so kön-nen (abgesehen von der Rundung der Nachkommastellen) die passenden Wertedirekt durch entsprechende Skalierungsfaktoren ku und kv erreicht werden:

⎛⎜⎝uvw

⎞⎟⎠ =

⎡⎢⎣fku 0 0 00 fkv 0 00 0 1 0

⎤⎥⎦⎛⎜⎜⎜⎝

xc1

xc2

xc3

1

⎞⎟⎟⎟⎠ .

Mit ku = 54.05 und kv = 54.05 würden im Ergebnis die Intervalle der x- undy-Werte zwischen [−600, 600] und [−400, 400] liegen. Zudem lassen sich durchku �= kv nicht-quadratische Sensorelemente berücksichtigen.

Die zweite Eigenschaft, die noch zur intrinsischen Matrix hinzugenommenwird, ist die planare Verschiebung der Bildebene in u- und v-Richtung. DieseEigenschaft wird beispielsweise dann benötigt, wenn bei einer Digitalkamerader Sensor nicht 100% zentriert ist. Damit wird die o. g. Gleichung wie folgtergänzt: ⎛⎜⎝u

vw

⎞⎟⎠ =

⎡⎢⎣fku 0 u0 00 fkv v0 00 0 1 0

⎤⎥⎦⎛⎜⎜⎜⎝

xc1

xc2

xc3

1

⎞⎟⎟⎟⎠ .

Wird das obere Beispiel wieder aufgegriffen, können mit u0 = 600 und v0 = 400die Intervalle der x- und y-Werte auf [0, 1200] und [0, 800] verschoben werdenund damit die Pixel-Koordinaten direkt „abgelesen“ werden.

Page 128: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

70 KURSEINHEIT 1. GEOMETRISCHE GRUNDLAGEN

Die bisher bestimmte intrinsische Matrix ist dann

C =

⎡⎢⎣fku 0 u0 00 fkv v0 00 0 1 0

⎤⎥⎦ .

Sie besitzt insgesamt 4 Freiheitsgrade und zusammen mit den 6 Freiheitsgradender extrinsischen Matrix ergeben sich 10 Freiheitsgrade. Da die Kameramatrixjedoch bis auf einen Skalierungsfaktor 11 Freiheitsgrade hat, gibt es offensicht-lich noch eine nicht berücksichtigte Eigenschaft.

Diese Eigenschaft ist der sogenannte skew-Faktor (zu deutsch etwa „wind-schief“). Er beschreibt die AsymmetrieAsymmetrie des Bildes, wie sie in der Realität seltenanzutreffen ist. Eine Möglichkeit mit echten Fotos einen Asymmetrie-Faktorungleich Null zu erreichen, ist die Fotografie einer Fotografie. Damit ergibt sichinsgesamt die folgende Matrix:

C =

⎡⎢⎣fku s u0 00 fkv v0 00 0 1 0

⎤⎥⎦ .

In Kombination mit der extrinsischen Matrix und mit t = −Rc ergibt sichdiese 3 × 4-Matrix einer endlichen projektiven Kameraendliche projektive

Kamera, die bis auf einen Ska-

lierungsfaktor bestimmt ist:

P = CD =

⎡⎢⎣fku s u0 00 fkv v0 00 0 1 0

⎤⎥⎦ [R t0 1

].

Die letzte Spalte der Matrix C und die letzte Zeile der Matrix D verändernin diesem Fall das Ergebnis nicht. Daher kann die Gleichung verkürzt notiertwerden:

P = K[R t

]=

⎡⎢⎣fku s u0

0 fkv v0

0 0 1

⎤⎥⎦ [R t

]

=

⎡⎢⎢⎢⎢⎢⎢⎢⎣

fkur11 + sr21 fkur12 + sr22 fkur13 + sr23 fkut1 + st2

+u0r31 +u0r32 +u0r33 +u0t3

fkvr21 + v0r31 fkvr22 + v0r32 fkvr23 + v0r33 fkvt2 + v0t3

r31 r32 r33 t3

⎤⎥⎥⎥⎥⎥⎥⎥⎦ .

Die Matrix der internen Kameraparameter

K =

⎡⎢⎣fku s u0

0 fkv v0

0 0 1

⎤⎥⎦sollten Sie sich besonders merken. Sie wird in Kurseinheit 2 für die automati-sche Kalibrierung der Kameras benötigt.

Die Projektion aus homogenen Weltkoordinaten berechnet sich dann schlichtüber:

pc = PXw mit x = u/w und y = v/w

Page 129: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

1.3. KAMERA 71

Nicht berücksichtigte Eigenschaften

Es gibt weitere Eigenschaften, die bei einem Abbildungsprozess mit einer ech-ten Kamera berücksichtigt werden müssten. Zu diesen Eigenschaften gehörtzum Beispiel die kissenförmige Verzerrung der Bilder, die insbesondere beiLinsensystemen mit kleinen Brennweiten auftritt.

Diese Art von Verzerrung ist nicht-linear. Es gibt unterschiedliche Ansätze,nichtlineare Verzerrungen zu korrigieren. Beispiele sind [Tsa87] und [WMM94].

Damit ist der Abschnitt über die projektive Kamera und ihre Eigenschaftenbeendet. Ausgehend von der Lochkamera, sollte deutlich geworden sein, dasses für die resultierende Abbildung keinen wesentlichen Unterschied macht, obsie sich im gleichen Abstand vor oder hinter der Kamera befindet. Daraus re-sultiert das Modell für die Kamera in grafischen Systemen. Zudem sollte dasBewusstsein entstanden sein, dass eine Kamera idealerweise ein eigenes Koor-dinatensystem besitzt. Dementsprechend müssen Objekte in das Koordinaten-system der Kamera überführt werden. Sie sollten jetzt in der Lage sein, dieeinzelnen Schritte einer projektiven Transformation von den Weltkoordinatenüber die Kamerakoordinaten bis hin zu den zweidimensionalen Koordinatender Bildebene zu erklären. Sie sollten außerdem beschreiben können, wie sichdiese Transformation in der 3 × 4 Kameramatrix darstellt. Das bedeutet vorallem ein Verständnis für die intrinsischen und extrinsischen Parameter undwelche Eigenschaften realer Kameras nicht durch diese Parameter abgedecktsind. Im Großen und Ganzen sollte für Sie eine direkte Umrechnung der Welt-koordinaten auf die Bildebene lösbar sein.

In dieser Kurseinheit haben Sie zunächst eine Einführung in die projektiveGeometrie der Ebene und des dreidimensionalen Raums erhalten. Sie habengelernt, wie sich Punkte und Geraden mithilfe von Homographien abbilden las-sen. In diesem Kontext wurde die Hierarchie der Transformationen eingeführt,in der die einzelnen Eigenschaften vom euklidischen Raum bis zum projektivenRaum gegenübergestellt wurden.

Ein Abschnitt der projektiven Geometrie beschäftigte sich zudem intensiv mitder Frage, wie sich Eigenschaften aus Bildern zurückgewinnen lassen. Dabeiwurde mithilfe des DLT-Algorithmus ganz konkret gezeigt, wie sich perspekti-visch verzerrte Elemente aus Bildern durch Angabe von Punktkorrespondenzen„entzerren“ lassen. In diesem Kontext wurde auch auf die affine Rektifizierungeingegangen, mit der sich zumindest die parallelen Geraden in Bildern wiederparallel darstellen lassen.

Im zweiten Abschnitt wurden die geometrischen Konzepte um die Kegelschnit-te in der Ebene und die Quadriken im Dreidimensionalen erweitert. Zunächstwurde gezeigt, dass sich Kegelschnitte durch Punkte und Geraden beschreibenlassen, sowie Quadriken zusätzlich durch Ebenen. Zu Kegelschnitten und Qua-driken wurden auch die dualen Konzepte beschrieben. Schließlich wurde ein

Page 130: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

72 KURSEINHEIT 1. GEOMETRISCHE GRUNDLAGEN

besonderes Augenmerk auf die sogenannten degenerierten Kegelschnitte undQuadriken gelegt, die bestimmte Eigenschaften der euklidischen Geometrie inden projektiven Raum übertragen. Diese Eigenschaften werden in Kurseinheit2 für die automatische Kalibrierung der ermittelten Kameras verwendet.

Im dritten Abschnitt wurde der Begriff der Kamera über das Konzept derLochkamera eingeführt. Anhand der Lochkamera wurden Begriffe wie Brenn-weite, Bildebene oder Kamerazentrum beschrieben und besprochen. In diesemZusammenhang gab es einen kurzen Exkurs zum Kamera- und Weltkoordi-natensystem. Schließlich wurde die projektive Kamera und das Modell derProjektion dreidimensionaler Punkte auf die zweidimensionale Bildebene aus-führlich besprochen. Dazu gehörte auch die Unterscheidung zwischen Positionund Lage der Kamera (extrinsische Eigenschaften) und interne Kameraeigen-schaften wie Brennweite (intrinsische Eigenschaften).

Damit sind die Grundlagen gelegt, um in Kurseinheit 2 aus den Punktkor-respondenzen zweier unterschiedlicher Abbildungen derselben Szene zunächstdie Fundamentalmatrix, dann die Kameramatrizen und schließlich die dreidi-mensionale Punktwolke zu bilden.

Page 131: mathematik und informatik - fernuni-hagen.de · Ausgehend von einer fast informellen Beschreibung, die sich auf die Vermittlung der zugrundeliegen-den Konzepte und Ideen konzentriert,

Literaturverzeichnis

[Atk08] Atkins, Jim: Il Duomo: Brunelleschi, a Man of Many Talents. In:ADVENTURES IN ARCHITECTURE 15 (2008), Nr. 3

[HZ03] Hartley, Richard ; Zisserman, Andrew: Multiple View Geome-try in Computer Vision. 2. New York, NY, USA : CambridgeUniversity Press, 2003. – ISBN 0521540518

[Tsa87] Tsai, R: A versatile camera calibration technique for high-accuracy3D machine vision metrology using off-the-shelf TV cameras andlenses. In: IEEE Journal on Robotics and Automation 3 (1987),Nr. 4, S. 323–344

[WMM94] Wei, Guo ; Ma, Song D. ; Member, Senior: Implicit and explicitcamera calibration: theory and experiments. In: IEEE Transactionson Pattern Analysis and Machine Intelligence 16 (1994), Nr. 5, S.469–480

81