4 Automatische Inhaltsanalyse von digitalen...
Transcript of 4 Automatische Inhaltsanalyse von digitalen...
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-1
4 Automatische Inhaltsanalysevon digitalen Videos
4.1 Basis-Parameter für die Video-Analyse
4.2 Ermittlung von semantischen Eigenschaften aus derVideo-Spur
4.3 Basis-Parameter für die Audio-Analyse
4.4 Ermittlung von semantischen Eigenschaften aus derAudio-Spur
4.5 Anwendungsbeispiele
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-2
Wozu dient die automatische Inhaltsanalyse?
Die erste Generation der Multimedia-Rechner war lediglichin der Lage, Video- und Audioströme weiterzuleiten undauf den Ausgabegeräten darzustellen (Bildschirm, Laut-sprecher).
Moderne Multimedia-Rechner erlauben durch ihre hoheLeistungsfähigkeit eine Verarbeitung der multimedialenStröme.
Ein interessantes Forschungsgebiet ist die automatischeInhaltsanalyse . Man versucht, den Rechner so viel wiemöglich über den Inhalt eines Videos herausfinden zu las-sen. Anwendungsbeispiele sind
• die automatische Indexierung von Video-Archiven, bei-spielsweise bei Fernsehsendern
• das automatische Filtern von rohem Video-Material aufder Suche nach relevanten Informationen
• die automatische Erstellung von Video-Abstracts
• die Zerlegung und Neukomposition von Videomaterial
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-3
4.1 Basis-Parameter für die Video-Analyse
Man kann die Inhaltsanalyse in drei Schritte gliedern:
• die Ermittlung von Basis-Parametern (physikalischenParametern) aus dem digitalen Datenstrom
• die Berechnung von semantischen Eigenschaften aufeiner höheren Abstraktionsebene
• die Zusammensetzung der einzelnen Algorithmen zuEndbenutzer-Anwendungen.
Wir werden dies im Folgenden für Video (Einzelbilder undBildfolgen) und für Audio skizzieren.
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-4
4.1.1 Einzelbild-Analyse
Farbhistogramme
Die einfachste und wichtigste Charakterisierung einesEinzelbildes ist das Farbhistogramm . Es stellt die Ver-teilung von Farbwerten (oder Graustufenwerten) im Bilddar. Für Farbbilder ist das Histogramm dreidimensional(RGB oder YUV), für Graustufenbilder ist es eindimensio-nal.
Das Farbhistogramm wird heute schon vielfach als eineinfacher Filter in Bilddatenbanken eingesetzt.
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-5
Beispiel: Zwei Graustufenhistogramme
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-6
Mosaik-Bildung
Farbhistogramme haben den gravierenden Nachteil, dasssie nicht unterscheiden, wo im Bild und wie gruppiert dieFarbwerte in den Bildern vorkommen. Möglicherweise istein Bild mit viel Himmel nicht von einem Bild mit viel Meerzu unterscheiden. Oder ein Bild mit einem Sonnenunter-gang nicht von einem Bild mit vielen kalifornischen Mohn-blumen (orange).
Eine erste Verbesserung besteht darin, das Bild in einMosaik von Rechtecken gleicher Größe zu zerlegen unddann zu verlangen, dass die gesuchten Farbwerte in be-stimmten Mosaik-Bereichen vorkommen.
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-7
Farbkohärenz-Vektoren
Ein Farbkohärenzvektor (color coherence vector, CCV)enthält pro Farbwert zwei Einträge: einen Wert α mit demProzentsatz der Pixel in Regionen, die größer als derDurchschnitt sind, einen zweiten Wert β mit dem Pro-
zentsatz der Pixel in Regionen kleiner als der Durch-schnitt:
CCV = <(α 1,β 1), ..., (α n,β n)>
Mit Farbkohärenzvektoren lassen sich Bildähnlichkeitenpräziser fassen. Farbkohärenz-Vektoren sind unabhängigvon der Position der Objekte im Bildbereich.
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-8
Kantenerkennung
Ein weiterer interessanter Parameter für die Analyse vonBildern sind Kantenverläufe . Sie grenzen die einzelnenObjekte eines Bildes voneinander ab. Die Kantenerken-nung (edge detection) ist ein wichtiges Gebiet der klassi-schen Bildverarbeitung.
Es gibt zwei grundsätzliche Möglichkeiten, Kanten im Bildzu finden:
• Linienverfolgung
• iteratives Abgrenzen von Regionen.
Die Erfahrung zeigt, dass das iterative Abgrenzen vonRegionen in der Praxis meist besser funktioniert.
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-9
Algorithmus “Linienverfolgung“
1. Beginne mit einem Pixel, das auf der gesuchten Kanteliegt
2. Für alle Endpunkte von bereits einbezogenen Linien:2.1 Untersuche die 1-Pixel-Nachbarschaft des End-
punkts2.2 Wenn ein Nachbarpixel eine Farbdifferenz von
weniger als ∆ c hat, füge es zu der Linie hinzu,bis es keinen Fortschritt mehr gibt.
Wir sehen sofort zwei Probleme:
1. Was ist der richtige Wert für ∆ c?2. Was passiert, wenn die wahre Linie durch Rausch-
Pixel unterbrochen ist? Sollen wir den Suchbereichauf mehrere Pixel erhöhen und interpolieren? Auf wieviele Pixel?
Die Linienverfolgung erweist sich in der Praxis als unzu-verlässig .
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-10
Algorithmus “Regionenausweitung“ (region growing)
1. Die initiale Menge der Regionen ist leer.2. Finde ein beliebiges Pixel, das noch nicht in einer Re-
gion enthalten ist. Dieses Pixel definiert die aktuelleRegion.
3. Wiederhole für alle Pixel in der aktuellen Region3.1 Untersuche die 1-Pixel-Nachbarschaft des Pixels3.2 Wenn ein Nachbarpixel eine Farbdifferenz von
weniger als ∆ c hat, füge es zu der Region hinzubis die aktuelle Region nicht mehr wächst.
4. Wenn es noch Pixel gibt, die zu keiner Region gehö-ren, mache weiter mit Schritt 2.
Der Parameter ∆ c ist die Homogenitätsschwelle für dieRegionen.
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-11
Problem mit “Regionenausweitung“
An der Grenze der aktuellen Region kann eine Kette vonPixels mit
cii cc ∆−+ %|| 1
die Kante stark verfälschen.
a b c d e f g
A B
Anmerkung : Es gibt auch den dualen Algorithmus “regi-on splitting “ sowie eine Kombination der beiden zu“split-and-merge “ . Letzterer funktioniert in der Praxis oftam besten.
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-12
Der Homogenitätsparameter ist kritisch!
Die richtige Wahl des Homogenitätsparameters ∆ c ist sehrschwierig. Eine falsche Wahl führt zur Über- oder Unter-segmentierung:
Originalbild richtig segmentiert
übersegmentiert untersegmentiert
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-13
Ein Segmentierungsbeispiel
Eine farbige Kugel rollt vor einem grauen Hintergrund. Siekann mit Hilfe der Kantenerkennung einigermaßen gutsegmentiert werden. Das unten stehende Bild wurde mitdem Algorithmus “Regionenausweitung“ (region growing)berechnet.
Originalbild segmentiertes Bild
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-14
Objektsegmentierung
Die Kantenerkennung bildet die Basis für die Objektseg-mentierung. Hierbei versucht man, ein Bild in einzelnesemantische Objekte zu zerlegen.
Leider sind nur in sehr einfachen Fällen die durch Kanten-züge eingegrenzten Objekte auch wirklich semantischeObjekte des Bildes! Probleme bereiten insbesondere:
• Verdeckungen
• Objekte an den Bildrändern, die nur teilweise sichtbarsind
• Objekte, die sich verformen können (z.B. Personen)
• Objekte, die im 3D-Raum aus verschiedenen Winkelnaufgenommen wurden
und vieles mehr.
Fazit: Die Zerlegung eines Bildes in semantische Objekteist außerordentlich schwierig.
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-15
4.1.2 Bildfolgen-Analyse
Durch die Analyse von Bildfolgen versucht man, Bildin-halte besser zu verstehen.
Die Bewegung eines Objekts kann Hinweise auf dieSemantik geben, zum Beispiel könnte eine Zickzack-Bewegung charakteristisch für einen Skiläufer beim Ab-fahrtslauf sein.
Die Bewegung der Kamera (Schwenk, Kamerafahrt,Zoom usw.) unterscheidet sich von der Bewegung vonObjekten dadurch, dass alle Bildpunkte in berechenbarerWeise davon betroffen sind (zum Beispiel durch Translati-on bei einem Schwenk). So kann es gelingen, die Ka-merabewegung automatisch zu erkennen.
Weiterhin kann die Bewegungserkennung die Segmentie-rung von Objekten sehr erleichtern. Das menschliche Au-ge nutzt Bewegungserkennung in hohem Maße zur Ob-jekterkennung; zum Beispiel sieht man einen Spatz in ei-nem herbstliche Laubbaum erst, wenn er sich bewegt.
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-16
Bewegungsvektoren
Moderne Kompressionsverfahren für Video berechnen inder Regel Bewegungsvektoren , und zwar für Pixelblöcke(Beispiele: MPEG-1, MPEG-2, H.261, H.263). Darauslässt sich zwar in der Regel eine Bewegung von Ein-zelobjekten nicht erkennen, aber man kann immerhin Ka-meraoperationen analysieren. Der Vorteil ist, dass die be-nötigten Daten ohne eine aufwendige, separate Berech-nung zur Verfügung stehen.
Beispiel
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-17
Block-basierte Bewegungsvektoren
Wenn ein einfarbiges, flächiges Objekt sich durch das Bildbewegt, funktioniert die Bewegungsdetektion nur an denKanten des Objekts und auch nur in der Bewegungsrich-tung! Deshalb sind block-basierte Bewegungsvektoren füreine semantische Analyse nur eingeschränkt geeignet.
Beispiel
Bild 1 Bild 2
Bewegungsvektoren
Original Original
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-18
Optischer Fluss
Bewegungen von Objekten der realen Welt stellen sich alsFarbänderungen im Bild dar. Um die Berechnung zu ver-einfachen, arbeitet man in der Regel auf Grauwertbildern.Unter dem optischen Fluss (optical flow) versteht mandie Bewegung von Grauwertmustern über die Bildfläche.
In einem ersten Schritt wird an jedem Punkt der Verschie-bungsvektor für den Grauwert bestimmt und anschließendein kontinuierliches Vektorfeld berechnet, das den opti-schen Fluss darstellt. Beide Schritte sind nur unter ein-schränkenden Annahmen möglich, und beide sind feh-leranfällig. In der Literatur gibt es eine große Zahl vonVerfahren zur Berechung des optischen Flusses.
Die größte Schwierigkeit besteht darin festzustellen, wohinein bestimmter Bildpunkt tatsächlich gewandert ist („physi-sche Korrespondenz“):
?
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-19
Probleme bei der Berechnung desoptischen Flusses
Leider gibt es viele weitere praktische Probleme, die dieBerechnung des optischen Flusses erschweren.
Beispiele
?
??
Blendenproblem deformierbareKörper
periodische Strukturen
Fazit:Der optische Fluss ist in der Regel ein unzuverlässigerIndikator für Objektbewegungen.
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-20
Kantenveränderungsrate
Wenn man die Kanten in einem Bild berechnet, wie weiteroben erläutert, kann man die Kantenveränderungsrate(edge change ratio) zwischen zwei Bildern i und i+1 be-rechnen. Wir ermitteln zunächst die Pixel, die in Bild i aufKanten liegen; ihre Anzahl bezeichnen wir als si. Ebensoermitteln wir die Pixel, die in Bild i+1 auf Kanten liegen; ih-re Anzahl bezeichnen wir als si+1. Dann ermitteln wir dieAnzahl der Pixel, die in Bild i auf einer Kante liegen, in Bildi+1 aber nicht mehr (verschwindende Kanten, Eout), undumgekehrt diejenigen, die in Bild i+1 auf einer Kante lie-gen, aber noch nicht in Bild i (hinzukommende Kanten,Ein).
Wir definieren dann die Kantenveränderungsrate ECR(edge change ratio) zwischen Bild i und i+1 als
),max(1+
=i
out
i
ini s
E
s
EECR
Um die Unempfindlichkeit des Maßes gegenüber leichtemRauschen oder Bildzittern zu erhöhen, werden die Kantenvor der Berechnung künstlich verbreitert (z.B. auf sechsPixel). Die ECR kann beispielsweise als ein einfachesMaß für die Intensität von Bewegung eingesetzt werden.
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-21
Algorithmus zur Berechnung der ECR
Kantenberechnung Kantenberechnung
Zähle Kantenpixel aus:
n-1s ns
Kantendilatation+ Invertierung
Kantendilatation+ Invertierung
Zähle Kantenpixel aus:
EC outn - 1 EC in
n
AND AND
ECR n = max ( ECR inn
, ECR outn - 1
)
Bild n- 1 Bild n
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-22
4.2 Ermittlung von semantischen Ei-genschaften aus der Video-Spur
4.2.1 Schnitterkennung
Ein sehr einfaches und zugleich zuverlässiges Verfahrenzur Ermittlung von Semantik ist die Schnitterkennung .Unter einem Schnitt versteht man die Grenze zwischenzwei Einstellungen im Film, in denen jeweils die Kameraununterbrochen durchläuft.
Man unterscheidet harte Schnitte und Blenden (Einblen-den, Ausblenden, Überblenden und Trickblenden wie z.B.Wischblenden).
Die Schnitterkennung dient zugleich dazu, ein Video ineinzelne Abschnitte (=Einstellungen) zu zerlegen, denenman dann bestimmte Parameter/ Eigenschaften zuordnenkann. So könnte man zum Beispiel die Einstellungen alsatomare Einheiten für Speicherung und Retrieval in einemVideo-Archiv ansehen.
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-23
Schnitterkennung mit Farbhistogrammen
Das einfachste Verfahren zur Schnitterkennung basiert aufFarbhistogrammen: Wenn sich die Farbhistogramme zwi-schen zwei benachbarten Bildern i und i+1 um mindestenseinen Schwellwert T unterscheiden, wird ein harter Schnitterkannt.
Sei H(r,g,b,i) der Histogrammwert für ein Farbtripel (r,g,b)in Bild i. Ein Schnitt wird erkannt genau dann, wenn
TibgrHibgrHbgr
≥+−∑,,
2))1,,,(),,,((
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-24
Beispiel: Schnitterkennung mitFarbhistogramm-Differenzen
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-25
Typische Erkennungsfehler
Die Erkennungsrate von harten Schnitten mit Farbhisto-grammen liegt in typischen Videos zwischen 90% und98%.
Sie versagt immer dann, wenn sich die Farbwerte zwi-schen zwei Bildern plötzlich ändern, ohne dass ein Schnittim Video vorliegt.
Beispiele
• Einschalten des Lichts in einem Raum
• Explosionen
• gerissene Schwenks
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-26
Schnitterkennung mit derKantenveränderungsrate
Im Allgemeinen werden die Kanten im ersten Bild nach ei-nem harten Schnitt ganz anders verlaufen als im letzenBild vor dem harten Schnitt. Man kann deshalb im Prinzipdie ECR zur Erkennung von harten Schnitten verwenden.
Sei ECRi die Kantenveränderungsrate zwischen Bild i undBild i+1. Dann wird ein Schnitt erkannt genau dann wenn
TECRi ≥wobei T ein Schwellenwert ist.
Allerdings muss zum Einsatz dieses Verfahrens zuvor ei-ne Bewegungskompensation auf dem Video gerechnetwerden. Denn schnelle Schwenks oder Objektbewegun-gen in großen Bildbereichen können zu hohen Werten derECR zwischen benachbarten Bildern führen. IntensiveBewegung kann dadurch von einem harten Schnitt unter-schieden werden, dass sie über mehrere Bilder hinwegandauert.
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-27
Beispiel: Schnitterkennung mit derKantenveränderungsrate
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-28
Erkennung von weichen Übergängen
Weiche Blenden zwischen Einstellungen sind wesentlichschwerer zu erkennen als harte Schnitte. Man kann bei-spielsweise versuchen, einen charakteristischen Verlaufder Kantenveränderungsrate ECR im Bereich der Blen-de zu erkennen.
Beispiel: Bei einer Überblendung verschwinden zu-nächst Kanten aus der alten Einstellung mit einer gleich-mäßigen Rate; allmählich treten dann Kanten aus derneuen Einstellung hervor. Es ergibt sich ein typischerVerlauf der ECR:
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-29
ECR-Verlauf bei Einblenden und Ausblenden
Relativ einfach lassen sich in analoger Weise Einblendenund Ausblenden im Video lokalisieren. Bei einer Aus-blende muss nach dem letzten Bild die Anzahl der Kan-tenpixel Null sein; bei einer Einblende analog vor dem er-sten Bild.
Beispiel: Gemessener Verlauf der ECR beim Ein- undAusblenden
Wie man sich leicht überlegen kann, sind weiche Über-gänge in Farbhistogrammen derart häufig innerhalb vonEinstellungen zu finden, dass man sie nicht als charakteri-stisch für eine Blende ansehen kann.
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-30
4.2.2 Action-Intensität
Die Intensität von Action in einer Einstellung ist ein wichti-ger Parameter, der zum Beispiel bei der Genre-Erkennungzur Unterscheidung von Nachrichtensendungen und Mu-sik-Videoclips verwendet werden kann.
Die Action-Intensität lässt sich sehr einfach aus den Be-wegungsvektoren berechnen: Man berechnet den durch-schnittlichen Betrag aller Vektoren über die Länge derEinstellung. Dabei werden sowohl Objektbewegung alsauch Kamerabewegung erfasst.
Ebenso kann die Kantenveränderungsrate ECR als Indi-kator für Action dienen. Lange statische Szenen haben ei-ne niedrige ECR, bewegungsintensive Szenen eine hoheECR.
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-31
4.2.3 Erkennung von Kamera-Operationen
Unter Kameraoperationen versteht man Schwenks, Ka-merafahrten und Zooms. Diese können dadurch vonObjektbewegungen unterschieden werden, dass sie sichin einheitlicher, berechenbarer Weise auf die einzelnenPixel eines Bildes auswirken.
Beispiel 1Bei einem Schwenk werden alle Pixel beim Übergang vonBild i auf Bild i+1 um denselben Betrag seitlich verscho-ben.
Beispiel 2Beim Hineinzoomen werden alle Pixel außer dem Bild-mittelpunkt von diesem weg nach außen verschoben. Esändert sich zwar auch die Größe der Objekte, aber zwi-schen Bild i und Bild i+1 kann dies bei der Berechnungvernachlässigt werden.
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-32
Vorgehensweise zur Erkennungvon Kamera-Operationen
Algorithmus Erkenne-Kamera-Operation
• Verwende die Bewegungsvektoren aus dem Kompressi-onsalgorithmus (z.B. MPEG) oder berechne den opti-schen Fluss im Video
• Teste, ob die ermittelten Vektoren nach Betrag undRichtung dem Muster einer vordefinierten Kamera-Operation entsprechen
AnmerkungDie Erkennung von Kamera-Operationen funktioniert nurdann gut, wenn die analysierte Einstellung wenig Objekt-bewegung enthält. Bei einer (in der Praxis sehr häufigen)Überlagerung von Kamera-Operation und Objektbewe-gung ist eine automatische Erkennung kaum noch mög-lich.
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-33
Ermittlung von Raumgeometrien ausKamerabewegung
Wenn man die Kamerabewegung durch die Analyse derBewegungsvektoren rückberechnen kann, kann man ausdem Betrag und der Richtung der Vektoren die Geometriedes Raumes rekonstruieren. Sehr leicht lässt sich zumBeispiel aus einem horizontalen Schwenk ein Panorama-Standbild erzeugen.
BeispielBerechnung von Panoramabildern aus einem Video, dasvon einer ständig auf dem Kopf getragenen Kamera auf-gezeichnet wird (Steve Mann, MIT Media Lab)
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-34
4.2.4 Texterkennung
ZielExtraktion von generiertem Text (evtl. auch Szenentext).Grund: reich an Semantik
TechnikErkennung von Textregionen, Ausschneiden, OCR
Eigenschaften von Text in Videos
• monochrom
• starr
• im Vordergrund
• minimale und maximale Größe
• stationär oder linear durchlaufend
• hoher Kontrast zum Hintergrund
• erscheint wiederholt in aufeinander folgenden Bildern
• erscheint in Gruppen
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-35
Textsegmentierung (1)
Text ist monochrom
Original-Videobild Zerlegung in Regionen
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-36
Textsegmentierung (2)
Grenzwerte für Zeichengrößen und Kontrast
bisheriges Ergebnis nach Anwendung der Grenzwerte
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-37
Textsegmentierung (3)
Text muss stillstehen oder sich linear bewegen
nach Anwendung derBewegungsregel
bisheriges Ergebnis
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-38
Experimentelle Ergebnisse
Testvideo AnzahlBilder
AnzahlBuchstaben
davonsegmentiert
Titelsequenzen 7372 6423 99%
Werbespots 6858 1065 99%
Nachrichten 18624 1411 97%
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-39
4.2.5 Gesichtserkennung
Ziel:Erkennung von Bildbereichen im Video, die ein Gesicht inFrontalansicht zeigen.
Ansatz:
• Aufbau eines neuronalen Netzes zur Mustererkennung
• Trainieren des Netzes mit einigen tausend Gesichtern,bei denen die Linie zwischen den Augen und die Senk-rechte von dort auf die Nasenspitze markiert wurden
• Durchlaufen eines unbekannten Bildes mit Auschnitts-rahmen in verschiedenen Größen
• Vorverarbeitung/Filtern/Helligkeitsnormierung desAusschnitts
• Test auf “Gesicht“ mit dem trainierten neuronalenNetz
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-40
Funktionsweise der Gesichtserkennung
Bildpyramidedes Eingabe-
bildes
Ausschnitts-fenster
(20 mal 20 Pixel)
Beleuchtungs-korrektur
Histogramm-ausgleich
subs
ampl
ing
Histogramm-ausgleich
Vorverarbeitung
Neuronales Netz
Netzeingabe
20 mal 20Pixel
RezeptiveFelder
Schicht der ver-steckten
Neuronen
Netzaus-gabe
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-41
Mehrfach-Erkennung
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-42
Visualisierung des Ergebnisses
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-43
4.3 Basis-Parameter für die Audio-Analyse
Physikalische Eigenschaften: einfachAmplitude = LautstärkeFrequenz = Tonhöhe
Psycho-akustische Eigenschaften: komplex
• Klang entsteht durch eine komplexe Überlagerung vonverschiedenen Frequenzen
• wichtig für den akustischen Eindruck ist auch das Ein-setzen und das Abklingen eines Klanges (z.B. Klaviertonvs. Gitarrenton)
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-44
Empfindung der Lautstärke
1. Das physikalische Maß: der SchalldruckpegelEinheit: Dezibel [db]
2. Durch den Menschen empfundene LautstärkeEinheit: Phon [phon]
Die Kurvenschar der Isophone stellt die Abhängigkeit derempfundenen Laustärke von der Frequenz dar:
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-45
Experimentelle Ergebnisse
rote Kurve: Schalldruckpegelblaue Kurve: rechnerische vorhergesagte Lautstärke-
Empfindungschwarze Kurve: von Kontrollpersonen tatsächliche emp-
fundene Lautstärke
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-46
Fundamentale Frequenzen inharmonischen Klängen
Die Grundfrequenz (fundamental frequency) des zusam-mengesetzten Klangs f0 entspricht dem kleinsten gemein-samen Vielfachen der Einzelfrequenzen f1 und f2.
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-47
Frequenztransformation
J.B.J. Fourier (1768-1830): Jede Schwingung kann alsSumme harmonischer Schwingungen dargestellt werden:
])2cos()2sin([2
)(1
0 ∑∞
=
++=n
nn nftBnftAB
ts ππ
f: GrundfrequenzAn, Bn: Amplitudensin(2π nft) = ganzzahlig Vielfache der Grundfrequenz
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-48
Frequenztransformation auf digitalen Signalen
Instrument:N-Punkt diskrete Fouriertransformation (DFT)
1,...,1,0,)()(21
0
−==−−
=∑ NfensfS
nN
ifN
n
π
N = DFT-Länge
Schemas(t) kontinuierliches Ausgangssignal
Schritt 1 Abtastung mit T
fs
1=
s(t) Diskretes Ausgangssignal
Schritt 2 Zeitbegrenzung mit w(t)-Fenster
s(t) Diskretes Ausgangssignal mit N Werten
[0, NT]
Schritt 3 N-Punkt DFT
S(f) Kontinuierliche Fouriertransformierte
Schritt 4 Abtastung mit N Stützpunkten pro T
S(f) Diskrete Fouriertransformierte
Die Schritte 3 und 4 werden durch die FFT (Fast FourierTransform) erheblich beschleunigt.
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-49
Schritt 1: Abtastung im Zeitbereich
Zeitbereich Frequenzbereich
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-50
Schritt 2: Zeitbegrenzung auf [0, NT]
Zeitbereich Frequenzbereich
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-51
Schritt 3: Abtastung im Frequenzbereich
Ziel : Digitalisierung der Daten auch im Frequenzbereichzwecks Darstellung auf dem Rechner
Zeitbereich Frequenzbereich
Literatur:E.O Brigham: FFT: Schnelle Fourier-Transformation,Oldenburg Verlag 1995
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-52
Signalanalyse mit der DFT
GegebenNatürliches Audiosignal der Länge M, z.B. M = 5 min mo-nophones Musiksignal
ZielExtraktion von Eigenschaften, z.B. musikalischeTöne(Tonhöhe, Lautstärke, Anklingzeit, Abklingzeit)
MethodeFestlegung eines Rahmens der Größe N, der zur Analyseüber das Audiosignal verschoben wird und jeweils ein„Fenster“ auf dieses bildet. Auf diesem Rahmen wird dieDFT durchgeführt.
Im Beispiel: Da Töne auf mindestens 10 ms stationär blei-ben, wird N = 10 ms gewählt.
Die Verschiebung des Rahmens geschieht überlappend,um Tonübergänge besser erfassen zu können. Im Beispielwerde gewählt: Überlappung = 2 ms
=> es gibt 750.38
000.30
8
100605 ==xx Rahmen.
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-53
Signalanalyse – Eigenschaften (1)
Auf den Rahmen können semantische Eigenschaften be-rechnet werden.
1. Energie
)()(1
2 nsmEm
Nmns ∑
+−==
m = Endezeitpunkt des Rahmens
Es ist ein Maß für die akustische Energie des Signals aufdem Rahmen. Es entspricht dem Quadrat der Fläche un-ter der Kurve im Zeitbereich.
Die Energie kann auch auf dem frequenztransformiertenSignal berechnet werden und stellt dann ein Maß für diespektrale Energieverteilung dar.
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-54
Signalanalyse – Eigenschaften (2)
2. Nulldurchgangsmaß
−
≥=
0)(:1
0)(:1))((
%ns
nsnssign
∑+−=
+−=
m
Nmns
nssignnssign
NmZ
1 2
))1(())((1)(
• Zählt die Anzahl der Nulldurchgänge (bzw. Vorzeichen-wechsel) des Signals
• Hohe Frequenzen führen zu hohem Zs, niedrige Fre-quenzen zu niedrigem Zs
• Eng verwandt mit der Grundfrequenz.
Es gibt noch viele weitere geeignete syntaktische Eigen-schaften aus der Signalanalyse.
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-55
4.4 Ermittlung von semantischenEigenschaften aus der Audio-Spur
4.4.1 SpracherkennungSprachsignal
Signalanalyse(z.B. LPC, Cepstrum)
akustische Parameter
Endpunktdetektion
Merkmalsextraktion
Merkmalsvektor
Vorverarbeitung undNormierung
Lernphase Testphase
Speicherung des Referenzmusters
Klassifikation(Mustervergleich)
Entscheidung, Klassenzuordnung
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-56
Spracherkennungsmethoden (1)
Nichtlineare Anpassung (Dynamic Time Warping)
Kernproblem : zeitlich unterschiedlicher Aufbau von ver-schiedenen Wörtern unterschiedlicher Sprachsituationen
Einsatz von Methoden der dynamischen Programmierungzur Abbildung zweier Wörter aufeinander.
Punkte im Schema identifizieren als gleich erkannte Mu-ster.
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-57
Spracherkennungsmethoden (2)
Hidden-Markov-Modelle
Der Prozess der Spracherzeugung wird durch einen sto-chastischen endlichen Automaten modelliert. Spracher-kennung wird dadurch realisiert, dass der Automat eineWahrscheinlichkeit berechnet dafür, dass er selbst einvorliegendes Sprachsignal erzeugt hat. D.h., für jedesWort wird ein Automat in einer Lernphase erzeugt undtrainiert und kann dann in der Erkennungsphase die ge-wünschte Wahrscheinlichkeit berechnen.
Literatur
B. Eppinger, E. Herter „Sprachverarbeitung“ Carl HauserVerlag München, Wien 1993
J.R. Deller, J.G. Proakis, J.G.H. Hansen „Discrete-TimeProcessing of Speech Signals“ Prentice Hall 1987
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-58
Sprechererkennung
Anwendungen
• Sprecher-Verifikation, z.B. für polizeiliche Ermittlungen;Problem: nicht-kooperativer Sprecher (Stimme verstel-len, keine vorgegebenen Sätze)
• Sprecheridentifikation z.B. für die Zugangskontrolle
Methoden
• Mustererkennung
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-59
Sprecherindividuelle Merkmale
Die sprachlichen Unterschiede zwischen Menschen beru-hen auf unterschiedlichen Dimensionen des Vokaltraktesund der Stimmbänder, sowie auf einem entwickeltenSprachverhalten. Letzeres kann kopiert werden, so dassErsteres wichtiger ist für die Sprechererkennung.
• Berechnung von Langzeit-Mittelwerten und –Standard-abweichungen von Merkmalen
• Berechnung von Histogrammen aus Merkmalen
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-60
4.4.2 Erkennung von StilleZielErkennung von Phasen relativer Stille in der Audio-Spur
In natürlichen Schallsituationen gibt es Momente, die derMensch als „Stille“ identifiziert. Sie sind dadurch charakte-risiert, dass ein dominantes Vordergrundgeräusch (z.B.Sprache) fehlt und nur noch Hintergrundgeräusche existie-ren.
Ansätze zu ihrer Bestimmung1. Auf der Basis von Lautheitsmessungen.Leisere Teile werden als relative Stille erkannt. Problem:Was sollte der Schwellenwert sein?
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-61
Erkennung von Stille (2)
2. Auf der Basis von Energiemessungen
Wird in Kombination mit dem Nulldurchgangsmaß zurIdentifikation von Wortgrenzen eingesetzt
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-62
Zeitliche Strukturen
Takt, Rhythmus
Takt = regelmäßig wiederkehrende Folge von betontenund unbetonten Schlägen (“beats“); z.B. ¾ -Takt
Rhythmus = einprägsame, regelmäßig wiederkehrendeFolge von Notenwerten; z.B.
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-63
Erkennung von Schlagzeug-Schlägen
• Im Zeitbereich: durch Amplitudenstatistiken
• Erkennen von Amplitudenspitzen über Schwellen-werte, wobei relative oder absolute Maximalwertegewählt werden können.
• Ergebnisse: für „richtige“ Musikstücke unbrauchbar,da die Amplitudenspitzen nicht ausgeprägt genugsind
• Im Frequenzbereich: durch Schlagzeugerkennung
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-64
Ergebnisse zur Rhythmus-Erkennung
Identifikation bei „richtigen“ Musikstücken zuverlässig: in15 von 20 Stücken wurde der Rhythmus korrekt erkannt
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-65
Identifikation von Musikstücken
Wichtige Variable
• Spektrale Energieverteilung
• Frequenzbandbreite des Instruments
• Spezifische Obertöne und ihre Ausprägung
• Zeitliche Struktur der Frequenzkomponenten
• beim Anspielen
• beim Halten
• beim Ausklingen
• z.B. bei Blasinstrumenten bleiben Frequenzkompo-nenten über die Zeit konstant, während sie sich beiStreichern ständig verändern (Vibrato)
• Anklingzeit des Tons
• z.B. Trompete, Horn: kurze Anklingzeit
• Klarinette, Saxophon: lange Anklingzeit
• Übergänge zwischen Tönen
• Abklingfrequenzen der Töne:
• Eigenfrequenz des Instruments tritt hervor
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-66
Einsetzen und Abklingen des Tons
Beispiel: Schuss und Schrei
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-67
4.4.3 Anwendungsbeispiele (Audio)
• Unterscheidung von Schweigen, Sprache, Musik undGeräusch auf der Tonspur eines Videos
• Transkription von Sprache nach ASCII zur nachfolgen-den automatischen Indexierung (heute noch nicht ganzmachbar)
• Direkte Inhaltserkennung in sehr typischen Fällen: Ten-nis, Schüsse, Explosionen, Tierlaute (Bellen, Wiehern)
• “Query-by-Example“ für Musikstücke
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-68
Suche in Musik-Datenbanken
Vergleich
gefunden
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-69
4.5 Anwendungsbeispiele
4.5.1 Genre-Erkennung
ZielZuordnung eines Videos zu einem Genre (Spielfilm, Nach-richten, Werbung, Musik-Clip etc.)
TechnikKombination von vielen Parametern der Ebene 2 zu einemcharakteristischen “Fingerabdruck“
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-70
Beispiel: Szenenlängen-Verteilung
Prozent
100
Prozent
100
Szenenlänge [s] 50Szenenlänge [s] 50
Musikclip Nachrichtensendung
Fazit
Allein auf Grund der Szenenlängen-Verteilung kann einMusik-Clip von einer Nachrichtensendung unterschiedenwerden!
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-71
Experimentelle Ergebnisse
Ermittelt am Lehrstuhl für Praktische Informatik IV.
• 140 Clips aus 7 Genres: Nachrichten, Fußball, Tennis,Talkshow, Musik-Clip, Zeichentrickfilm, Werbung
• Der MoCA-Prototyp klassifizierte zwischen 87% (Werbe-Clips) und 99% (Nachrichten) richtig.
Problem:Die Berechnungszeit für ein Video von 3 min beträgt 28 hauf einer SUN SPARC20!
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-72
4.5.2 Erkennung von Werbe-Spots in einemVideostrom
Motivation
• Überprüfen, ob Werbespots tatsächlich gesendet wer-den, wie vertraglich vereinbart
• Automatisch beobachten, was die Konkurrenz tut
• Korrelieren der messbaren Eigenschaften der verschie-denen Werbespots zu ihrem Erfolg auf dem Markt (z.B.Farbstimmung, Bewegungsintensität)
• Entfernen unerwünschter Werbespots aus einem Video-Datenstrom
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-73
Eigenschaften von TV Werbespots
Struktur eines Werbeblocks
Spielfilm
Werbeblock- Intro
Werbespot
Werbespot
Sender-eigenwerbung
Spielfilm-Intro
Spielfilm
t
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-74
Inhaltsbasierte Lokalisierung von Werbespots
Erkennung auf der Basis von
• dunklen, einfarbigen Frames
• hoher Bewegungsintensität (hohe ECR, viele lange Be-wegungsvektoren)
• Häufigkeit von harten Schnitten.
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-75
Schwarze Frames
Auftreten von einfarbigen, dunklen Frames in einem Spiel-film, der von einem Werbeblock unterbrochen wird:
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-76
Lokalisierung in zwei Schritten
1. Schritt: schnelle Vorauswahl
Monochrome Bilder und häufige harte Schnitte dienen alsVorauswahl und bestimmen die Zeitbereiche des Videos,die als Kandidaten angesehen werden.
2. Schritt: Präzise Grenzen bestimmen
Beginn und Ende jedes Werbeblocks werden durch Be-wegungsvektoren und Kantenveränderungsmaß (ECR)genauer bestimmt.
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-77
Experimentelle Ergebnisse
Getestetes MaterialVier Stunden deutsches Fernsehen auf Video (nur Spiel-filme mit eingebetteten Werbeblöcken)
ErgebnisAlle Werbeblöcke wurden korrekt erkannt.
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-78
Wiedererkennung bekannter Werbespots
Vorgehensweise
• Berechnung eines “Fingerabdrucks“ für jeden Werbespot
• Aufbau einer Datenbank der Fingerabdrücke bekannterWerbespots
• Vergleich des Werbespots im Videostrom mit den Wer-bespots in der Datenbank
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-79
Vergleich
• Schnelles Vorspringen bis zum nächsten harten Schnitt
• Ermittlung des “Fingerabdrucks“ auf eine Länge von LFrames
• Vergleich mit der Datenbank
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-80
Experimentelle Ergebnisse
Getestet an 200 zusätzlichen Werbespots
Ergebnisse
• alle bekannten Werbespots wurden erkannt
• es erfolgte keine falsche Erkennung
• der durchschnittliche Unterschied zwischen den genau-en und den berechneten Grenzen der Spots betrug fünfBilder
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-81
4.5.3 Eine intelligente Alarmanlage
Experiment
• Installation einer Kamera zur Raumüberwachung
• Ständige Ermittlung der Bewegungsvektoren aus demKamerabild
• Beim Erkennung von Bewegung Starten des digitalenVideo-Rekorders, Digitalisierung, Kompression, Auf-zeichnung des Videos auf der Festplatte
• Programmierbar! Beispiel: Leute in weißen Kitteln lösenkeinen Alarm aus
AnwendungsbeispielePC-Pool, Intensivstation im Krankenhaus, Bankräume,Baustellen u.v.m.
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-82
4.5.4 Automatische Verfolgung von bewegtenObjekten
ExperimentAufbau des Kamera-Roboters CaRo:
Segmentierung von Objekten aus dem Blickfeld der Ka-mera durch Kantenerkennung und einfache Farbmuster.Im Experiment: ein ferngesteuertes Auto auf grauem Fuß-boden
Anwendungsmöglichkeiten
• Sprecherverfolgung auf dem Podium
• Kameraführung bei Sportereignissen
• Video-Überwachung
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-83
4.5.5 Erkennung von Dialogen
Algorithmus
• Gesichts-Lokalisierung im Video mit dem neuronalenNetz
• Ermittlung eines “Fingerabdrucks“ von jedem erkanntenGesicht
• Wenn ein Muster von Gesichtern in der Form a,b,a,b,...vorkommt, wird ein Dialog erkannt
Anmerkung: Dialoge in dieser Form sind in Spielfilmensehr häufig zu finden. Man bezeichnet diese Kamerafüh-rung als “Schuss und Gegenschuss“.
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-84
4.5.6 Video-Abstracting
Ziel
Automatische Erstellung einer Video-Kurzfassung (Trailer)aus einem vollen Video
Vorgehensweise
• Zerlegung des Videos per Schnitterkennung
• Charakterisierung der Einstellungen mit den vorhande-nen Tools, so weit wie möglich
• Definition einer Heuristik, was in das Abstract hinein sollund in welcher Reihenfolge
• Zusammenfügen des Abstracts aus den einzelnen Ein-stellungen
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-85
Beispiel für ein Video-Abstract
Multimedia-
Technik
Prof. Dr. W.
Effelsberg
Inhaltsanalyse 4-86
4.5.7 Automatische Erkennung von Gewalt oderPornographie?
Mit heutigen Mitteln ist die automatische Erkennung vonGewalt in Videos nicht möglich. Die Semantik von Gewaltist zu tief und zu kompliziert.
Dasselbe gilt für pornographische Darstellungen.