4 Automatische Inhaltsanalyse von digitalen...

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-1

4 Automatische Inhaltsanalysevon digitalen Videos

4.1 Basis-Parameter für die Video-Analyse

4.2 Ermittlung von semantischen Eigenschaften aus derVideo-Spur

4.3 Basis-Parameter für die Audio-Analyse

4.4 Ermittlung von semantischen Eigenschaften aus derAudio-Spur

4.5 Anwendungsbeispiele

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-2

Wozu dient die automatische Inhaltsanalyse?

Die erste Generation der Multimedia-Rechner war lediglichin der Lage, Video- und Audioströme weiterzuleiten undauf den Ausgabegeräten darzustellen (Bildschirm, Laut-sprecher).

Moderne Multimedia-Rechner erlauben durch ihre hoheLeistungsfähigkeit eine Verarbeitung der multimedialenStröme.

Ein interessantes Forschungsgebiet ist die automatischeInhaltsanalyse . Man versucht, den Rechner so viel wiemöglich über den Inhalt eines Videos herausfinden zu las-sen. Anwendungsbeispiele sind

• die automatische Indexierung von Video-Archiven, bei-spielsweise bei Fernsehsendern

• das automatische Filtern von rohem Video-Material aufder Suche nach relevanten Informationen

• die automatische Erstellung von Video-Abstracts

• die Zerlegung und Neukomposition von Videomaterial

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-3

4.1 Basis-Parameter für die Video-Analyse

Man kann die Inhaltsanalyse in drei Schritte gliedern:

• die Ermittlung von Basis-Parametern (physikalischenParametern) aus dem digitalen Datenstrom

• die Berechnung von semantischen Eigenschaften aufeiner höheren Abstraktionsebene

• die Zusammensetzung der einzelnen Algorithmen zuEndbenutzer-Anwendungen.

Wir werden dies im Folgenden für Video (Einzelbilder undBildfolgen) und für Audio skizzieren.

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-4

4.1.1 Einzelbild-Analyse

Farbhistogramme

Die einfachste und wichtigste Charakterisierung einesEinzelbildes ist das Farbhistogramm . Es stellt die Ver-teilung von Farbwerten (oder Graustufenwerten) im Bilddar. Für Farbbilder ist das Histogramm dreidimensional(RGB oder YUV), für Graustufenbilder ist es eindimensio-nal.

Das Farbhistogramm wird heute schon vielfach als eineinfacher Filter in Bilddatenbanken eingesetzt.

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-5

Beispiel: Zwei Graustufenhistogramme

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-6

Mosaik-Bildung

Farbhistogramme haben den gravierenden Nachteil, dasssie nicht unterscheiden, wo im Bild und wie gruppiert dieFarbwerte in den Bildern vorkommen. Möglicherweise istein Bild mit viel Himmel nicht von einem Bild mit viel Meerzu unterscheiden. Oder ein Bild mit einem Sonnenunter-gang nicht von einem Bild mit vielen kalifornischen Mohn-blumen (orange).

Eine erste Verbesserung besteht darin, das Bild in einMosaik von Rechtecken gleicher Größe zu zerlegen unddann zu verlangen, dass die gesuchten Farbwerte in be-stimmten Mosaik-Bereichen vorkommen.

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-7

Farbkohärenz-Vektoren

Ein Farbkohärenzvektor (color coherence vector, CCV)enthält pro Farbwert zwei Einträge: einen Wert α mit demProzentsatz der Pixel in Regionen, die größer als derDurchschnitt sind, einen zweiten Wert β mit dem Pro-

zentsatz der Pixel in Regionen kleiner als der Durch-schnitt:

CCV = <(α 1,β 1), ..., (α n,β n)>

Mit Farbkohärenzvektoren lassen sich Bildähnlichkeitenpräziser fassen. Farbkohärenz-Vektoren sind unabhängigvon der Position der Objekte im Bildbereich.

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-8

Kantenerkennung

Ein weiterer interessanter Parameter für die Analyse vonBildern sind Kantenverläufe . Sie grenzen die einzelnenObjekte eines Bildes voneinander ab. Die Kantenerken-nung (edge detection) ist ein wichtiges Gebiet der klassi-schen Bildverarbeitung.

Es gibt zwei grundsätzliche Möglichkeiten, Kanten im Bildzu finden:

• Linienverfolgung

• iteratives Abgrenzen von Regionen.

Die Erfahrung zeigt, dass das iterative Abgrenzen vonRegionen in der Praxis meist besser funktioniert.

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-9

Algorithmus “Linienverfolgung“

1. Beginne mit einem Pixel, das auf der gesuchten Kanteliegt

2. Für alle Endpunkte von bereits einbezogenen Linien:2.1 Untersuche die 1-Pixel-Nachbarschaft des End-

punkts2.2 Wenn ein Nachbarpixel eine Farbdifferenz von

weniger als ∆ c hat, füge es zu der Linie hinzu,bis es keinen Fortschritt mehr gibt.

Wir sehen sofort zwei Probleme:

1. Was ist der richtige Wert für ∆ c?2. Was passiert, wenn die wahre Linie durch Rausch-

Pixel unterbrochen ist? Sollen wir den Suchbereichauf mehrere Pixel erhöhen und interpolieren? Auf wieviele Pixel?

Die Linienverfolgung erweist sich in der Praxis als unzu-verlässig .

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-10

Algorithmus “Regionenausweitung“ (region growing)

1. Die initiale Menge der Regionen ist leer.2. Finde ein beliebiges Pixel, das noch nicht in einer Re-

gion enthalten ist. Dieses Pixel definiert die aktuelleRegion.

3. Wiederhole für alle Pixel in der aktuellen Region3.1 Untersuche die 1-Pixel-Nachbarschaft des Pixels3.2 Wenn ein Nachbarpixel eine Farbdifferenz von

weniger als ∆ c hat, füge es zu der Region hinzubis die aktuelle Region nicht mehr wächst.

4. Wenn es noch Pixel gibt, die zu keiner Region gehö-ren, mache weiter mit Schritt 2.

Der Parameter ∆ c ist die Homogenitätsschwelle für dieRegionen.

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-11

Problem mit “Regionenausweitung“

An der Grenze der aktuellen Region kann eine Kette vonPixels mit

cii cc ∆−+ %|| 1

die Kante stark verfälschen.

a b c d e f g

A B

Anmerkung : Es gibt auch den dualen Algorithmus “regi-on splitting “ sowie eine Kombination der beiden zu“split-and-merge “ . Letzterer funktioniert in der Praxis oftam besten.

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-12

Der Homogenitätsparameter ist kritisch!

Die richtige Wahl des Homogenitätsparameters ∆ c ist sehrschwierig. Eine falsche Wahl führt zur Über- oder Unter-segmentierung:

Originalbild richtig segmentiert

übersegmentiert untersegmentiert

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-13

Ein Segmentierungsbeispiel

Eine farbige Kugel rollt vor einem grauen Hintergrund. Siekann mit Hilfe der Kantenerkennung einigermaßen gutsegmentiert werden. Das unten stehende Bild wurde mitdem Algorithmus “Regionenausweitung“ (region growing)berechnet.

Originalbild segmentiertes Bild

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-14

Objektsegmentierung

Die Kantenerkennung bildet die Basis für die Objektseg-mentierung. Hierbei versucht man, ein Bild in einzelnesemantische Objekte zu zerlegen.

Leider sind nur in sehr einfachen Fällen die durch Kanten-züge eingegrenzten Objekte auch wirklich semantischeObjekte des Bildes! Probleme bereiten insbesondere:

• Verdeckungen

• Objekte an den Bildrändern, die nur teilweise sichtbarsind

• Objekte, die sich verformen können (z.B. Personen)

• Objekte, die im 3D-Raum aus verschiedenen Winkelnaufgenommen wurden

und vieles mehr.

Fazit: Die Zerlegung eines Bildes in semantische Objekteist außerordentlich schwierig.

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-15

4.1.2 Bildfolgen-Analyse

Durch die Analyse von Bildfolgen versucht man, Bildin-halte besser zu verstehen.

Die Bewegung eines Objekts kann Hinweise auf dieSemantik geben, zum Beispiel könnte eine Zickzack-Bewegung charakteristisch für einen Skiläufer beim Ab-fahrtslauf sein.

Die Bewegung der Kamera (Schwenk, Kamerafahrt,Zoom usw.) unterscheidet sich von der Bewegung vonObjekten dadurch, dass alle Bildpunkte in berechenbarerWeise davon betroffen sind (zum Beispiel durch Translati-on bei einem Schwenk). So kann es gelingen, die Ka-merabewegung automatisch zu erkennen.

Weiterhin kann die Bewegungserkennung die Segmentie-rung von Objekten sehr erleichtern. Das menschliche Au-ge nutzt Bewegungserkennung in hohem Maße zur Ob-jekterkennung; zum Beispiel sieht man einen Spatz in ei-nem herbstliche Laubbaum erst, wenn er sich bewegt.

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-16

Bewegungsvektoren

Moderne Kompressionsverfahren für Video berechnen inder Regel Bewegungsvektoren , und zwar für Pixelblöcke(Beispiele: MPEG-1, MPEG-2, H.261, H.263). Darauslässt sich zwar in der Regel eine Bewegung von Ein-zelobjekten nicht erkennen, aber man kann immerhin Ka-meraoperationen analysieren. Der Vorteil ist, dass die be-nötigten Daten ohne eine aufwendige, separate Berech-nung zur Verfügung stehen.

Beispiel

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-17

Block-basierte Bewegungsvektoren

Wenn ein einfarbiges, flächiges Objekt sich durch das Bildbewegt, funktioniert die Bewegungsdetektion nur an denKanten des Objekts und auch nur in der Bewegungsrich-tung! Deshalb sind block-basierte Bewegungsvektoren füreine semantische Analyse nur eingeschränkt geeignet.

Beispiel

Bild 1 Bild 2

Bewegungsvektoren

Original Original

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-18

Optischer Fluss

Bewegungen von Objekten der realen Welt stellen sich alsFarbänderungen im Bild dar. Um die Berechnung zu ver-einfachen, arbeitet man in der Regel auf Grauwertbildern.Unter dem optischen Fluss (optical flow) versteht mandie Bewegung von Grauwertmustern über die Bildfläche.

In einem ersten Schritt wird an jedem Punkt der Verschie-bungsvektor für den Grauwert bestimmt und anschließendein kontinuierliches Vektorfeld berechnet, das den opti-schen Fluss darstellt. Beide Schritte sind nur unter ein-schränkenden Annahmen möglich, und beide sind feh-leranfällig. In der Literatur gibt es eine große Zahl vonVerfahren zur Berechung des optischen Flusses.

Die größte Schwierigkeit besteht darin festzustellen, wohinein bestimmter Bildpunkt tatsächlich gewandert ist („physi-sche Korrespondenz“):

?

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-19

Probleme bei der Berechnung desoptischen Flusses

Leider gibt es viele weitere praktische Probleme, die dieBerechnung des optischen Flusses erschweren.

Beispiele

?

??

Blendenproblem deformierbareKörper

periodische Strukturen

Fazit:Der optische Fluss ist in der Regel ein unzuverlässigerIndikator für Objektbewegungen.

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-20

Kantenveränderungsrate

Wenn man die Kanten in einem Bild berechnet, wie weiteroben erläutert, kann man die Kantenveränderungsrate(edge change ratio) zwischen zwei Bildern i und i+1 be-rechnen. Wir ermitteln zunächst die Pixel, die in Bild i aufKanten liegen; ihre Anzahl bezeichnen wir als si. Ebensoermitteln wir die Pixel, die in Bild i+1 auf Kanten liegen; ih-re Anzahl bezeichnen wir als si+1. Dann ermitteln wir dieAnzahl der Pixel, die in Bild i auf einer Kante liegen, in Bildi+1 aber nicht mehr (verschwindende Kanten, Eout), undumgekehrt diejenigen, die in Bild i+1 auf einer Kante lie-gen, aber noch nicht in Bild i (hinzukommende Kanten,Ein).

Wir definieren dann die Kantenveränderungsrate ECR(edge change ratio) zwischen Bild i und i+1 als

),max(1+

=i

out

i

ini s

E

s

EECR

Um die Unempfindlichkeit des Maßes gegenüber leichtemRauschen oder Bildzittern zu erhöhen, werden die Kantenvor der Berechnung künstlich verbreitert (z.B. auf sechsPixel). Die ECR kann beispielsweise als ein einfachesMaß für die Intensität von Bewegung eingesetzt werden.

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-21

Algorithmus zur Berechnung der ECR

Kantenberechnung Kantenberechnung

Zähle Kantenpixel aus:

n-1s ns

Kantendilatation+ Invertierung

Kantendilatation+ Invertierung

Zähle Kantenpixel aus:

EC outn - 1 EC in

n

AND AND

ECR n = max ( ECR inn

, ECR outn - 1

)

Bild n- 1 Bild n

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-22

4.2 Ermittlung von semantischen Ei-genschaften aus der Video-Spur

4.2.1 Schnitterkennung

Ein sehr einfaches und zugleich zuverlässiges Verfahrenzur Ermittlung von Semantik ist die Schnitterkennung .Unter einem Schnitt versteht man die Grenze zwischenzwei Einstellungen im Film, in denen jeweils die Kameraununterbrochen durchläuft.

Man unterscheidet harte Schnitte und Blenden (Einblen-den, Ausblenden, Überblenden und Trickblenden wie z.B.Wischblenden).

Die Schnitterkennung dient zugleich dazu, ein Video ineinzelne Abschnitte (=Einstellungen) zu zerlegen, denenman dann bestimmte Parameter/ Eigenschaften zuordnenkann. So könnte man zum Beispiel die Einstellungen alsatomare Einheiten für Speicherung und Retrieval in einemVideo-Archiv ansehen.

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-23

Schnitterkennung mit Farbhistogrammen

Das einfachste Verfahren zur Schnitterkennung basiert aufFarbhistogrammen: Wenn sich die Farbhistogramme zwi-schen zwei benachbarten Bildern i und i+1 um mindestenseinen Schwellwert T unterscheiden, wird ein harter Schnitterkannt.

Sei H(r,g,b,i) der Histogrammwert für ein Farbtripel (r,g,b)in Bild i. Ein Schnitt wird erkannt genau dann, wenn

TibgrHibgrHbgr

≥+−∑,,

2))1,,,(),,,((

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-24

Beispiel: Schnitterkennung mitFarbhistogramm-Differenzen

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-25

Typische Erkennungsfehler

Die Erkennungsrate von harten Schnitten mit Farbhisto-grammen liegt in typischen Videos zwischen 90% und98%.

Sie versagt immer dann, wenn sich die Farbwerte zwi-schen zwei Bildern plötzlich ändern, ohne dass ein Schnittim Video vorliegt.

Beispiele

• Einschalten des Lichts in einem Raum

• Explosionen

• gerissene Schwenks

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-26

Schnitterkennung mit derKantenveränderungsrate

Im Allgemeinen werden die Kanten im ersten Bild nach ei-nem harten Schnitt ganz anders verlaufen als im letzenBild vor dem harten Schnitt. Man kann deshalb im Prinzipdie ECR zur Erkennung von harten Schnitten verwenden.

Sei ECRi die Kantenveränderungsrate zwischen Bild i undBild i+1. Dann wird ein Schnitt erkannt genau dann wenn

TECRi ≥wobei T ein Schwellenwert ist.

Allerdings muss zum Einsatz dieses Verfahrens zuvor ei-ne Bewegungskompensation auf dem Video gerechnetwerden. Denn schnelle Schwenks oder Objektbewegun-gen in großen Bildbereichen können zu hohen Werten derECR zwischen benachbarten Bildern führen. IntensiveBewegung kann dadurch von einem harten Schnitt unter-schieden werden, dass sie über mehrere Bilder hinwegandauert.

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-27

Beispiel: Schnitterkennung mit derKantenveränderungsrate

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-28

Erkennung von weichen Übergängen

Weiche Blenden zwischen Einstellungen sind wesentlichschwerer zu erkennen als harte Schnitte. Man kann bei-spielsweise versuchen, einen charakteristischen Verlaufder Kantenveränderungsrate ECR im Bereich der Blen-de zu erkennen.

Beispiel: Bei einer Überblendung verschwinden zu-nächst Kanten aus der alten Einstellung mit einer gleich-mäßigen Rate; allmählich treten dann Kanten aus derneuen Einstellung hervor. Es ergibt sich ein typischerVerlauf der ECR:

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-29

ECR-Verlauf bei Einblenden und Ausblenden

Relativ einfach lassen sich in analoger Weise Einblendenund Ausblenden im Video lokalisieren. Bei einer Aus-blende muss nach dem letzten Bild die Anzahl der Kan-tenpixel Null sein; bei einer Einblende analog vor dem er-sten Bild.

Beispiel: Gemessener Verlauf der ECR beim Ein- undAusblenden

Wie man sich leicht überlegen kann, sind weiche Über-gänge in Farbhistogrammen derart häufig innerhalb vonEinstellungen zu finden, dass man sie nicht als charakteri-stisch für eine Blende ansehen kann.

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-30

4.2.2 Action-Intensität

Die Intensität von Action in einer Einstellung ist ein wichti-ger Parameter, der zum Beispiel bei der Genre-Erkennungzur Unterscheidung von Nachrichtensendungen und Mu-sik-Videoclips verwendet werden kann.

Die Action-Intensität lässt sich sehr einfach aus den Be-wegungsvektoren berechnen: Man berechnet den durch-schnittlichen Betrag aller Vektoren über die Länge derEinstellung. Dabei werden sowohl Objektbewegung alsauch Kamerabewegung erfasst.

Ebenso kann die Kantenveränderungsrate ECR als Indi-kator für Action dienen. Lange statische Szenen haben ei-ne niedrige ECR, bewegungsintensive Szenen eine hoheECR.

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-31

4.2.3 Erkennung von Kamera-Operationen

Unter Kameraoperationen versteht man Schwenks, Ka-merafahrten und Zooms. Diese können dadurch vonObjektbewegungen unterschieden werden, dass sie sichin einheitlicher, berechenbarer Weise auf die einzelnenPixel eines Bildes auswirken.

Beispiel 1Bei einem Schwenk werden alle Pixel beim Übergang vonBild i auf Bild i+1 um denselben Betrag seitlich verscho-ben.

Beispiel 2Beim Hineinzoomen werden alle Pixel außer dem Bild-mittelpunkt von diesem weg nach außen verschoben. Esändert sich zwar auch die Größe der Objekte, aber zwi-schen Bild i und Bild i+1 kann dies bei der Berechnungvernachlässigt werden.

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-32

Vorgehensweise zur Erkennungvon Kamera-Operationen

Algorithmus Erkenne-Kamera-Operation

• Verwende die Bewegungsvektoren aus dem Kompressi-onsalgorithmus (z.B. MPEG) oder berechne den opti-schen Fluss im Video

• Teste, ob die ermittelten Vektoren nach Betrag undRichtung dem Muster einer vordefinierten Kamera-Operation entsprechen

AnmerkungDie Erkennung von Kamera-Operationen funktioniert nurdann gut, wenn die analysierte Einstellung wenig Objekt-bewegung enthält. Bei einer (in der Praxis sehr häufigen)Überlagerung von Kamera-Operation und Objektbewe-gung ist eine automatische Erkennung kaum noch mög-lich.

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-33

Ermittlung von Raumgeometrien ausKamerabewegung

Wenn man die Kamerabewegung durch die Analyse derBewegungsvektoren rückberechnen kann, kann man ausdem Betrag und der Richtung der Vektoren die Geometriedes Raumes rekonstruieren. Sehr leicht lässt sich zumBeispiel aus einem horizontalen Schwenk ein Panorama-Standbild erzeugen.

BeispielBerechnung von Panoramabildern aus einem Video, dasvon einer ständig auf dem Kopf getragenen Kamera auf-gezeichnet wird (Steve Mann, MIT Media Lab)

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-34

4.2.4 Texterkennung

ZielExtraktion von generiertem Text (evtl. auch Szenentext).Grund: reich an Semantik

TechnikErkennung von Textregionen, Ausschneiden, OCR

Eigenschaften von Text in Videos

• monochrom

• starr

• im Vordergrund

• minimale und maximale Größe

• stationär oder linear durchlaufend

• hoher Kontrast zum Hintergrund

• erscheint wiederholt in aufeinander folgenden Bildern

• erscheint in Gruppen

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-35

Textsegmentierung (1)

Text ist monochrom

Original-Videobild Zerlegung in Regionen

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-36


Grenzwerte für Zeichengrößen und Kontrast

bisheriges Ergebnis nach Anwendung der Grenzwerte

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-37


Text muss stillstehen oder sich linear bewegen

nach Anwendung derBewegungsregel

bisheriges Ergebnis

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-38

Experimentelle Ergebnisse

Testvideo AnzahlBilder

AnzahlBuchstaben

davonsegmentiert

Titelsequenzen 7372 6423 99%

Werbespots 6858 1065 99%

Nachrichten 18624 1411 97%

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-39

4.2.5 Gesichtserkennung

Ziel:Erkennung von Bildbereichen im Video, die ein Gesicht inFrontalansicht zeigen.

Ansatz:

• Aufbau eines neuronalen Netzes zur Mustererkennung

• Trainieren des Netzes mit einigen tausend Gesichtern,bei denen die Linie zwischen den Augen und die Senk-rechte von dort auf die Nasenspitze markiert wurden

• Durchlaufen eines unbekannten Bildes mit Auschnitts-rahmen in verschiedenen Größen

• Vorverarbeitung/Filtern/Helligkeitsnormierung desAusschnitts

• Test auf “Gesicht“ mit dem trainierten neuronalenNetz

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-40

Funktionsweise der Gesichtserkennung

Bildpyramidedes Eingabe-

bildes

Ausschnitts-fenster

(20 mal 20 Pixel)

Beleuchtungs-korrektur

Histogramm-ausgleich

subs

ampl

ing

Histogramm-ausgleich

Vorverarbeitung

Neuronales Netz

Netzeingabe

20 mal 20Pixel

RezeptiveFelder

Schicht der ver-steckten

Neuronen

Netzaus-gabe

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-41

Mehrfach-Erkennung

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-42

Visualisierung des Ergebnisses

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-43

4.3 Basis-Parameter für die Audio-Analyse

Physikalische Eigenschaften: einfachAmplitude = LautstärkeFrequenz = Tonhöhe

Psycho-akustische Eigenschaften: komplex

• Klang entsteht durch eine komplexe Überlagerung vonverschiedenen Frequenzen

• wichtig für den akustischen Eindruck ist auch das Ein-setzen und das Abklingen eines Klanges (z.B. Klaviertonvs. Gitarrenton)

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-44

Empfindung der Lautstärke

1. Das physikalische Maß: der SchalldruckpegelEinheit: Dezibel [db]

2. Durch den Menschen empfundene LautstärkeEinheit: Phon [phon]

Die Kurvenschar der Isophone stellt die Abhängigkeit derempfundenen Laustärke von der Frequenz dar:

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-45


rote Kurve: Schalldruckpegelblaue Kurve: rechnerische vorhergesagte Lautstärke-

Empfindungschwarze Kurve: von Kontrollpersonen tatsächliche emp-

fundene Lautstärke

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-46

Fundamentale Frequenzen inharmonischen Klängen

Die Grundfrequenz (fundamental frequency) des zusam-mengesetzten Klangs f0 entspricht dem kleinsten gemein-samen Vielfachen der Einzelfrequenzen f1 und f2.

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-47

Frequenztransformation

J.B.J. Fourier (1768-1830): Jede Schwingung kann alsSumme harmonischer Schwingungen dargestellt werden:

])2cos()2sin([2

)(1

0 ∑∞

=

++=n

nn nftBnftAB

ts ππ

f: GrundfrequenzAn, Bn: Amplitudensin(2π nft) = ganzzahlig Vielfache der Grundfrequenz

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-48

Frequenztransformation auf digitalen Signalen

Instrument:N-Punkt diskrete Fouriertransformation (DFT)

1,...,1,0,)()(21

0

−==−−

=∑ NfensfS

nN

ifN

n

π

N = DFT-Länge

Schemas(t) kontinuierliches Ausgangssignal

Schritt 1 Abtastung mit T

fs

1=

s(t) Diskretes Ausgangssignal

Schritt 2 Zeitbegrenzung mit w(t)-Fenster

s(t) Diskretes Ausgangssignal mit N Werten

[0, NT]

Schritt 3 N-Punkt DFT

S(f) Kontinuierliche Fouriertransformierte

Schritt 4 Abtastung mit N Stützpunkten pro T

S(f) Diskrete Fouriertransformierte

Die Schritte 3 und 4 werden durch die FFT (Fast FourierTransform) erheblich beschleunigt.

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-49

Schritt 1: Abtastung im Zeitbereich

Zeitbereich Frequenzbereich

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-50

Schritt 2: Zeitbegrenzung auf [0, NT]


Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-51

Schritt 3: Abtastung im Frequenzbereich

Ziel : Digitalisierung der Daten auch im Frequenzbereichzwecks Darstellung auf dem Rechner


Literatur:E.O Brigham: FFT: Schnelle Fourier-Transformation,Oldenburg Verlag 1995

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-52

Signalanalyse mit der DFT

GegebenNatürliches Audiosignal der Länge M, z.B. M = 5 min mo-nophones Musiksignal

ZielExtraktion von Eigenschaften, z.B. musikalischeTöne(Tonhöhe, Lautstärke, Anklingzeit, Abklingzeit)

MethodeFestlegung eines Rahmens der Größe N, der zur Analyseüber das Audiosignal verschoben wird und jeweils ein„Fenster“ auf dieses bildet. Auf diesem Rahmen wird dieDFT durchgeführt.

Im Beispiel: Da Töne auf mindestens 10 ms stationär blei-ben, wird N = 10 ms gewählt.

Die Verschiebung des Rahmens geschieht überlappend,um Tonübergänge besser erfassen zu können. Im Beispielwerde gewählt: Überlappung = 2 ms

=> es gibt 750.38

000.30

8

100605 ==xx Rahmen.

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-53

Signalanalyse – Eigenschaften (1)

Auf den Rahmen können semantische Eigenschaften be-rechnet werden.

1. Energie

)()(1

2 nsmEm

Nmns ∑

+−==

m = Endezeitpunkt des Rahmens

Es ist ein Maß für die akustische Energie des Signals aufdem Rahmen. Es entspricht dem Quadrat der Fläche un-ter der Kurve im Zeitbereich.

Die Energie kann auch auf dem frequenztransformiertenSignal berechnet werden und stellt dann ein Maß für diespektrale Energieverteilung dar.

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-54

Signalanalyse – Eigenschaften (2)

2. Nulldurchgangsmaß

−

≥=

0)(:1

0)(:1))((

%ns

nsnssign

∑+−=

+−=

m

Nmns

nssignnssign

NmZ

1 2

))1(())((1)(

• Zählt die Anzahl der Nulldurchgänge (bzw. Vorzeichen-wechsel) des Signals

• Hohe Frequenzen führen zu hohem Zs, niedrige Fre-quenzen zu niedrigem Zs

• Eng verwandt mit der Grundfrequenz.

Es gibt noch viele weitere geeignete syntaktische Eigen-schaften aus der Signalanalyse.

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-55

4.4 Ermittlung von semantischenEigenschaften aus der Audio-Spur

4.4.1 SpracherkennungSprachsignal

Signalanalyse(z.B. LPC, Cepstrum)

akustische Parameter

Endpunktdetektion

Merkmalsextraktion

Merkmalsvektor

Vorverarbeitung undNormierung

Lernphase Testphase

Speicherung des Referenzmusters

Klassifikation(Mustervergleich)

Entscheidung, Klassenzuordnung

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-56

Spracherkennungsmethoden (1)

Nichtlineare Anpassung (Dynamic Time Warping)

Kernproblem : zeitlich unterschiedlicher Aufbau von ver-schiedenen Wörtern unterschiedlicher Sprachsituationen

Einsatz von Methoden der dynamischen Programmierungzur Abbildung zweier Wörter aufeinander.

Punkte im Schema identifizieren als gleich erkannte Mu-ster.

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-57

Spracherkennungsmethoden (2)

Hidden-Markov-Modelle

Der Prozess der Spracherzeugung wird durch einen sto-chastischen endlichen Automaten modelliert. Spracher-kennung wird dadurch realisiert, dass der Automat eineWahrscheinlichkeit berechnet dafür, dass er selbst einvorliegendes Sprachsignal erzeugt hat. D.h., für jedesWort wird ein Automat in einer Lernphase erzeugt undtrainiert und kann dann in der Erkennungsphase die ge-wünschte Wahrscheinlichkeit berechnen.

Literatur

B. Eppinger, E. Herter „Sprachverarbeitung“ Carl HauserVerlag München, Wien 1993

J.R. Deller, J.G. Proakis, J.G.H. Hansen „Discrete-TimeProcessing of Speech Signals“ Prentice Hall 1987

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-58

Sprechererkennung

Anwendungen

• Sprecher-Verifikation, z.B. für polizeiliche Ermittlungen;Problem: nicht-kooperativer Sprecher (Stimme verstel-len, keine vorgegebenen Sätze)

• Sprecheridentifikation z.B. für die Zugangskontrolle

Methoden

• Mustererkennung

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-59

Sprecherindividuelle Merkmale

Die sprachlichen Unterschiede zwischen Menschen beru-hen auf unterschiedlichen Dimensionen des Vokaltraktesund der Stimmbänder, sowie auf einem entwickeltenSprachverhalten. Letzeres kann kopiert werden, so dassErsteres wichtiger ist für die Sprechererkennung.

• Berechnung von Langzeit-Mittelwerten und –Standard-abweichungen von Merkmalen

• Berechnung von Histogrammen aus Merkmalen

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-60

4.4.2 Erkennung von StilleZielErkennung von Phasen relativer Stille in der Audio-Spur

In natürlichen Schallsituationen gibt es Momente, die derMensch als „Stille“ identifiziert. Sie sind dadurch charakte-risiert, dass ein dominantes Vordergrundgeräusch (z.B.Sprache) fehlt und nur noch Hintergrundgeräusche existie-ren.

Ansätze zu ihrer Bestimmung1. Auf der Basis von Lautheitsmessungen.Leisere Teile werden als relative Stille erkannt. Problem:Was sollte der Schwellenwert sein?

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-61

Erkennung von Stille (2)

2. Auf der Basis von Energiemessungen

Wird in Kombination mit dem Nulldurchgangsmaß zurIdentifikation von Wortgrenzen eingesetzt

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-62

Zeitliche Strukturen

Takt, Rhythmus

Takt = regelmäßig wiederkehrende Folge von betontenund unbetonten Schlägen (“beats“); z.B. ¾ -Takt

Rhythmus = einprägsame, regelmäßig wiederkehrendeFolge von Notenwerten; z.B.

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-63

Erkennung von Schlagzeug-Schlägen

• Im Zeitbereich: durch Amplitudenstatistiken

• Erkennen von Amplitudenspitzen über Schwellen-werte, wobei relative oder absolute Maximalwertegewählt werden können.

• Ergebnisse: für „richtige“ Musikstücke unbrauchbar,da die Amplitudenspitzen nicht ausgeprägt genugsind

• Im Frequenzbereich: durch Schlagzeugerkennung

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-64

Ergebnisse zur Rhythmus-Erkennung

Identifikation bei „richtigen“ Musikstücken zuverlässig: in15 von 20 Stücken wurde der Rhythmus korrekt erkannt

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-65

Identifikation von Musikstücken

Wichtige Variable

• Spektrale Energieverteilung

• Frequenzbandbreite des Instruments

• Spezifische Obertöne und ihre Ausprägung

• Zeitliche Struktur der Frequenzkomponenten

• beim Anspielen

• beim Halten

• beim Ausklingen

• z.B. bei Blasinstrumenten bleiben Frequenzkompo-nenten über die Zeit konstant, während sie sich beiStreichern ständig verändern (Vibrato)

• Anklingzeit des Tons

• z.B. Trompete, Horn: kurze Anklingzeit

• Klarinette, Saxophon: lange Anklingzeit

• Übergänge zwischen Tönen

• Abklingfrequenzen der Töne:

• Eigenfrequenz des Instruments tritt hervor

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-66

Einsetzen und Abklingen des Tons

Beispiel: Schuss und Schrei

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-67

4.4.3 Anwendungsbeispiele (Audio)

• Unterscheidung von Schweigen, Sprache, Musik undGeräusch auf der Tonspur eines Videos

• Transkription von Sprache nach ASCII zur nachfolgen-den automatischen Indexierung (heute noch nicht ganzmachbar)

• Direkte Inhaltserkennung in sehr typischen Fällen: Ten-nis, Schüsse, Explosionen, Tierlaute (Bellen, Wiehern)

• “Query-by-Example“ für Musikstücke

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-68

Suche in Musik-Datenbanken

Vergleich

gefunden

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-69

4.5 Anwendungsbeispiele

4.5.1 Genre-Erkennung

ZielZuordnung eines Videos zu einem Genre (Spielfilm, Nach-richten, Werbung, Musik-Clip etc.)

TechnikKombination von vielen Parametern der Ebene 2 zu einemcharakteristischen “Fingerabdruck“

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-70

Beispiel: Szenenlängen-Verteilung

Prozent

100

Prozent

100

Szenenlänge [s] 50Szenenlänge [s] 50

Musikclip Nachrichtensendung

Fazit

Allein auf Grund der Szenenlängen-Verteilung kann einMusik-Clip von einer Nachrichtensendung unterschiedenwerden!

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-71


Ermittelt am Lehrstuhl für Praktische Informatik IV.

• 140 Clips aus 7 Genres: Nachrichten, Fußball, Tennis,Talkshow, Musik-Clip, Zeichentrickfilm, Werbung

• Der MoCA-Prototyp klassifizierte zwischen 87% (Werbe-Clips) und 99% (Nachrichten) richtig.

Problem:Die Berechnungszeit für ein Video von 3 min beträgt 28 hauf einer SUN SPARC20!

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-72

4.5.2 Erkennung von Werbe-Spots in einemVideostrom

Motivation

• Überprüfen, ob Werbespots tatsächlich gesendet wer-den, wie vertraglich vereinbart

• Automatisch beobachten, was die Konkurrenz tut

• Korrelieren der messbaren Eigenschaften der verschie-denen Werbespots zu ihrem Erfolg auf dem Markt (z.B.Farbstimmung, Bewegungsintensität)

• Entfernen unerwünschter Werbespots aus einem Video-Datenstrom

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-73

Eigenschaften von TV Werbespots

Struktur eines Werbeblocks

Spielfilm

Werbeblock- Intro

Werbespot

Werbespot

Sender-eigenwerbung

Spielfilm-Intro

Spielfilm

t

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-74

Inhaltsbasierte Lokalisierung von Werbespots

Erkennung auf der Basis von

• dunklen, einfarbigen Frames

• hoher Bewegungsintensität (hohe ECR, viele lange Be-wegungsvektoren)

• Häufigkeit von harten Schnitten.

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-75

Schwarze Frames

Auftreten von einfarbigen, dunklen Frames in einem Spiel-film, der von einem Werbeblock unterbrochen wird:

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-76

Lokalisierung in zwei Schritten

1. Schritt: schnelle Vorauswahl

Monochrome Bilder und häufige harte Schnitte dienen alsVorauswahl und bestimmen die Zeitbereiche des Videos,die als Kandidaten angesehen werden.

2. Schritt: Präzise Grenzen bestimmen

Beginn und Ende jedes Werbeblocks werden durch Be-wegungsvektoren und Kantenveränderungsmaß (ECR)genauer bestimmt.

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-77


Getestetes MaterialVier Stunden deutsches Fernsehen auf Video (nur Spiel-filme mit eingebetteten Werbeblöcken)

ErgebnisAlle Werbeblöcke wurden korrekt erkannt.

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-78

Wiedererkennung bekannter Werbespots

Vorgehensweise

• Berechnung eines “Fingerabdrucks“ für jeden Werbespot

• Aufbau einer Datenbank der Fingerabdrücke bekannterWerbespots

• Vergleich des Werbespots im Videostrom mit den Wer-bespots in der Datenbank

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-79

Vergleich

• Schnelles Vorspringen bis zum nächsten harten Schnitt

• Ermittlung des “Fingerabdrucks“ auf eine Länge von LFrames

• Vergleich mit der Datenbank

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-80


Getestet an 200 zusätzlichen Werbespots

Ergebnisse

• alle bekannten Werbespots wurden erkannt

• es erfolgte keine falsche Erkennung

• der durchschnittliche Unterschied zwischen den genau-en und den berechneten Grenzen der Spots betrug fünfBilder

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-81

4.5.3 Eine intelligente Alarmanlage

Experiment

• Installation einer Kamera zur Raumüberwachung

• Ständige Ermittlung der Bewegungsvektoren aus demKamerabild

• Beim Erkennung von Bewegung Starten des digitalenVideo-Rekorders, Digitalisierung, Kompression, Auf-zeichnung des Videos auf der Festplatte

• Programmierbar! Beispiel: Leute in weißen Kitteln lösenkeinen Alarm aus

AnwendungsbeispielePC-Pool, Intensivstation im Krankenhaus, Bankräume,Baustellen u.v.m.

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-82

4.5.4 Automatische Verfolgung von bewegtenObjekten

ExperimentAufbau des Kamera-Roboters CaRo:

Segmentierung von Objekten aus dem Blickfeld der Ka-mera durch Kantenerkennung und einfache Farbmuster.Im Experiment: ein ferngesteuertes Auto auf grauem Fuß-boden

Anwendungsmöglichkeiten

• Sprecherverfolgung auf dem Podium

• Kameraführung bei Sportereignissen

• Video-Überwachung

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-83

4.5.5 Erkennung von Dialogen

Algorithmus

• Gesichts-Lokalisierung im Video mit dem neuronalenNetz

• Ermittlung eines “Fingerabdrucks“ von jedem erkanntenGesicht

• Wenn ein Muster von Gesichtern in der Form a,b,a,b,...vorkommt, wird ein Dialog erkannt

Anmerkung: Dialoge in dieser Form sind in Spielfilmensehr häufig zu finden. Man bezeichnet diese Kamerafüh-rung als “Schuss und Gegenschuss“.

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-84

4.5.6 Video-Abstracting

Ziel

Automatische Erstellung einer Video-Kurzfassung (Trailer)aus einem vollen Video

Vorgehensweise

• Zerlegung des Videos per Schnitterkennung

• Charakterisierung der Einstellungen mit den vorhande-nen Tools, so weit wie möglich

• Definition einer Heuristik, was in das Abstract hinein sollund in welcher Reihenfolge

• Zusammenfügen des Abstracts aus den einzelnen Ein-stellungen

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-85

Beispiel für ein Video-Abstract

Multimedia-

Technik

Prof. Dr. W.

Effelsberg

Inhaltsanalyse 4-86

4.5.7 Automatische Erkennung von Gewalt oderPornographie?

Mit heutigen Mitteln ist die automatische Erkennung vonGewalt in Videos nicht möglich. Die Semantik von Gewaltist zu tief und zu kompliziert.

Dasselbe gilt für pornographische Darstellungen.

4 Automatische Inhaltsanalyse von digitalen...

Documents

Transcript of 4 Automatische Inhaltsanalyse von digitalen...