Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression...

32
1 Learning to Compress Images and Videos von Li Cheng & S.V. N. Vishwanathan vorgetragen von Michael Wächter

Transcript of Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression...

Page 1: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen

1

Learning to CompressImages and Videos

von Li Cheng &S.V. N. Vishwanathan

vorgetragen von Michael Wächter

Page 2: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen

2

Motivation● Bild­ & Video­Kompression

– herkömmliche Verfahren sind frequenzbasiert– Aufsatz auf herkömmlichen Verfahren– zusätzlicher Platzgewinn ohne Qualitätsverlust

● SW­Bild­ & SW­Video­Kolorierung– herkömmliche Verfahren zeitaufwändig und manuell– jetzt semiautomatisch

Page 3: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen

3

Motivation

● Bild­Kompression– Auswahl repräsentativer Pixel– Lernen eines Farbvorhersage­Modells– Speichern des SW­Bilds + Farbpixel– Rekonstruktion des Farbbilds

● Video­Kompression analog

Page 4: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen

4

Motivation

● SW­Bild­ & SW­Video­Kolorierung– wie Kompression– automatische Pixelauswahl fällt weg– Farbinfos werden stattdessen vom Benutzer 

vorgegeben

Page 5: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen

5

Überblick● Motivation● Begriffsklärung● Funktionsweise

– Kolorierung mit Semi­Supervised Learning– Farbpixelauswahl mit Active Learning

● Experimente● Fazit● Bemerkungen

Page 6: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen

6

Begriffsklärung● Semi­Supervised Learning

● Graph­basierte Methoden:– Beispiele als Knoten (gelabelte und ungelabelte)– Nachbarschaftsbeziehungen als Kanten

● Achtung: Glattheitseigenschaften

X BeobachtungsraumY ⊂ℝ Labelraum{x i , y i }i=1

m gelabelte Beispiele

{x i }i=m1n

⊂X ungelabelte Beispielef ∈H zuminimierende Zielfunktionl : X x Y x H ℝ Loss−Funktion

Page 7: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen

7

Begriffsklärung● Graph

– ungerichtet, gewichtet● Adjazenz­Matrix

● Grad­Matrix

G=V ,E⊆V xV

WmitW ij∈0,∞ falls v i , v j∈EundW ij=0sonst

Dmit Dii=∑j

W ij

Page 8: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen

8

Begriffsklärung

● Laplace­Matrix

● normalisierte Laplace­Matrix

L=D−W

=D−1/2LD−1/2

Page 9: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen

9

Funktionsweise ­ Kolorierung

– Kantengewichte:● räumliche Nachbarschaft und Bildtextur● rationale Funktion 2. Grades bzgl. Helligkeitsdifferenz● ggf. zeitliche Nachbarschaft

minimiere∑i=1

n

[f x i −∑i~ j

w ij f x j ]2∑i=1

m

l f x i , y i

l f x i , y i =0 falls f x i =y i und ∞ sonstoderl f x i , y i =f x i −y i

2

∀ i : w ij0und∑i~ j

w ij=1

Page 10: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen

10

Funktionsweise ­ Kolorierung

● Laplacian Regularized Least Square algorithm:

minimiere J f =c∥f ∥H2

n2∥f ∥G

2 1m ∑

i=1

m

l x i , y i , f

mit f =[f x 1 ,... , f x m , ... , f x n ] ,

∥f ∥G2=f T ∇G f =f

T L2 f oder f T f

Page 11: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen

11

Funktionsweise ­ Kolorierung

● Lösung von LapRLS:es existieren i so ,dass f x =∑

i=1

n

i k x i , x

=I mK cmI mn2

∇gK −1

y

mit =1 , ... ,m , ... ,n T ,

I m∈ℝn ,n mit mxm−Einheitsmatrix links oben und 0sonst ,

K mit K ij=k x i , x j ,

∇G=L2oder

und y =y 1 , ... , y m ,0 , ... ,0T

Page 12: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen

12

Funktionsweise ­ Kolorierung● Implementationsdetails:

– YUV­Farbraum, Vorhersage von U und V getrennt– Kernel: standard Gaussian kernel (mit Parameter σ)– Mean Square Loss statt ∂­Loss– ∆ statt L²– keine zeitliche Nachbarschaft!– Problem: Matrixinvertierung

● Matrix zur Berechnung von α groß und dicht

● Berechnung einer Super­Pixel­Repräsentation des Ausgangsbilds ==> 1000­5000 Segmente

Page 13: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen

13

Funktionsweise ­ Pixelauswahl● automatische Pixelauswahl wird für Handkoloration 

abgeschaltet● ansonsten per Active Learning:

– Lerner wählt Beispiele aus und fragt nach Labels– muss dafür Kosten bezahlen (hier: Speicherplatz)

● Programmablauf:– Start mit ein paar zufälligen gelabelten Pixeln– Lernen des Modells

Page 14: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen

14

Funktionsweise ­ Pixelauswahl– Bild wird mit Modell vorhergesagt und mit Zielbild 

verglichen– Qualitätsmaß:

– Fehlerbereiche werden geclustert– aus jedem Fehlercluster wird ein Pixel gewählt, seine 

Farbinfo abgefragt und der Labelmenge hinzugefügt– Abbruchkriterium:

● PSNR=38 oder 5000 abgefragte Pixel● außerdem möglich: PSNR in einem Plateau

PSNR=20log10255

MSE

MSE=1n2 ∑

i , j=1

n

I ij−I 'ij2

Page 15: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen

15

Experimente● SW­Bild­Kolorierung

Page 16: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen

16

Experimente● Vergleich: Active Learning vs. manuelle Pixelauswahl

Page 17: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen

17

Experimente● Vergleich: Active Learning vs. manuelle Pixelauswahl

Page 18: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen

18

Experimente● Vergleich: Active Learning vs. manuelle Pixelauswahl

Page 19: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen

19

Experimente● Ergebnis Bienen:

– Active Learning● PSNR = 31.49● 2534 Pixel● 7 Iterationen

– manuell● PSNR = 27.00● 8558 Pixel

Page 20: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen

20

Experimente● Vergleich: Active Learning vs. zufällige Pixelauswahl

Page 21: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen

21

Experimente● Vergleich: Active Learning vs. zufällige Pixelauswahl

Page 22: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen

22

Experimente● Vergleich: Active Learning vs. zufällige Pixelauswahl

Page 23: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen

23

Experimente● Ergebnis Mädchen:

– Active Learning● PSNR = 40.95● 2766 Pixel● 17 Iterationen

– zufällig● PSNR = 38.41● 2976 Pixel

Page 24: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen

24

Experimente

● Kompressionsraten:– Bienen: 0.754– Mädchen: 0.781

Page 25: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen

25

Experimente

● Videokolorierung

Page 26: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen

26

Experimente● Videokompression

Page 27: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen

27

Experimente● Videokompression

Page 28: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen

28

Experimente

● Kompressionsrate 0.899– Berechnung allerdings unrealistisch, realistischer sind 

eher 0.925

Page 29: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen

29

Fazit● optisch ansprechende kolorierte Bilder und Videos● Kompression mit guten Kompressionsraten als Aufsatz 

auf herkömmliche Verfahren● Videokompression streaming­fähig● mögliche Verbesserung:

– „Vergessen“ von Labels ==> selber PSNR bei niedrigeren Kosten

– Beweis von performance boundaries

Page 30: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen

30

Bemerkungen

● weitere Verbesserungsmöglichkeiten:– evtl. Verwendung von spezialisierten SW­

Kompressionsverfahren● nach welchen Kriterien wurden die Bilder und Videos 

der Experimente ausgewählt?– „non­stationary video sequences“

● evtl. muss α auch gespeichert werden

Page 31: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen

31

Vielen Dank für Ihre Aufmerksamkeit!

Page 32: Learning to Compress Images and Videos - ke.tu-darmstadt.de · 2 Motivation Bild & VideoKompression – herkömmliche Verfahren sind frequenzbasiert – Aufsatz auf herkömmlichen

32

Quellen

● sämtliche Bilder entstammen der Seite http://sml.nicta.com.au/~licheng/LearnCompressImgVid/LearnCompressImgVid.html oder dem Artikel „Learning to Compress Images and Videos“, welcher auch auf dieser Seite zu finden ist.