MPEG-4 objektbasierte Videocodierung · beitungsprogramme, andere Video-sequenzen, etc.) zu...

7
it 5/2003 Schwerpunktthema MPEG-4 objektbasierte Videocodierung MPEG-4 Object-Based Video Coding Thomas Sikora, Technische Universität Berlin Zusammenfassung Neben einer hohen Kompressionseffizi- enz und einer guten Fehlerrobustheit stellt MPEG-4 Video als einziger internationaler Standard objektbasierte Funktionalitä- ten für Anwendungen zur Verfügung. In diesem Beitrag werden die Ziele und Techniken der MPEG-4 objektbasierten Kodierung beschrieben. Summary MPEG-4 is the first inter- national standard that supports applications with object-based functionalities. This article outlines the goals and technical de- tails of the MPEG-4 object-based coding algorithm. KEYWORDS I.4 [Image Processing] MPEG4, Video-Compression, Object-based Coding, Multimedia 1 Einführung Nach der Entwicklung der erfolgrei- chen MPEG-1 und MPEG-2 Stan- dards hat die MPEG Gruppe 1999, die zunehmende Verschmelzung der traditionell getrennten Industrie- zweige Telekommunikation, Com- puter und TV/Film berücksichti- gend, offiziell eine erste Version des MPEG-4 Standards verabschie- det [1]. Die MPEG Gruppe hatte sich zum Ziel gesetzt neue Algorith- men für die Codierung audiovisu- eller Informationen zu entwickeln, die insbesondere eine hohe Inter- aktivität mit Ton- und Bildinhalten gewährleisten und eine hohe Da- tenkompression erzielen. Weiterhin, und dies ist eine wesentlich neue Funktionalität, ermöglicht MPEG- 4 einen universellen Zugriff nicht nur auf einzelne Bilder (z.B. für schnellen Suchlauf, Editieren und Manipulieren wie bei bisherigen Standards), sondern darüber hinaus für Multimediaanwendungen auch den Zugriff auf einzelne Bildob- jekte auf Bitstromebene. Das we- sentliche Ziel ist die Bereitstellung von komprimierten Daten, die eine hohe bildinhaltsbezogene Funktio- nalität und Flexibilität für den Endbenutzer ermöglichen z. B. um flexibel am Empfänger einzelne Bildinhalte in Videosequenzen se- parat zu decodieren, zu manipu- lieren und ggf. in andere Anwen- dungsumgebungen (in Textverar- beitungsprogramme, andere Video- sequenzen, etc.) zu kopieren. Dies alles geschieht auf Bitstromebene, ohne dass eine zusätzliche Nach- verarbeitung und Transcodierung notwendig wird. Bieten also die MPEG-1 und MPEG-2 Standards bisher eine so genannte bildbezo- gene Funktionalität, so könnte man für die MPEG-4 Video-Codierung von bildinhaltsbezogenen Funktiona- litäten sprechen [4]. Diese inhaltsbezogenen Funk- tionalitäten werden mit MPEG-4 nicht nur für herkömmliches, pi- xelbasiertes Video, sondern auch für synthetische, computergene- rierte 2D- und 3D-Bildsequenzen ermöglicht, um so insbesondere die hybride Codierung von natürlichen und synthetischen Bildsequenzen zu unterstützen. Es ist anzuneh- men, dass insbesondere die Ent- wicklung neuerer Computerspiele oder Telepräsenzsysteme hierdurch maßgeblich beeinflusst wird. Aber auch dem zunehmenden Einfluss der Computergrafik im Bereich der Studiotechnik (z. B. beim virtuellen Studio) wird so Rechnung getragen. Weitere, nicht weniger wichtige Funktionalitäten des MPEG-4 Vi- deo Standards definieren sich aus den Randbedingungen aus Übertra- gungsaspekten. Hier ist insbeson- dere die mobile Bildkommunikation berücksichtigt. Eine hohe Toleranz bzw. Anpassung der Audio- und Videoqualität bei störungsbehafteter Übertragung und variabler Band- breite ist eine zentrale Stärke des MPEG-4 Standards aber auch die Möglichkeit einen MPEG-4 Bit- strom flexibel hinsichtlich varia- bler Decoderressourcen, zum Bei- spiel in Bezug auf Energieverbrauch it – Information Technology 45 (2003) 5 Oldenbourg Verlag 273

Transcript of MPEG-4 objektbasierte Videocodierung · beitungsprogramme, andere Video-sequenzen, etc.) zu...

it 5/2003

Schwerpunktthema ���

MPEG-4 objektbasierteVideocodierung

MPEG-4 Object-Based Video Coding

Thomas Sikora, Technische Universität Berlin

Zusammenfassung Neben einer hohen Kompressionseffizi-enz und einer guten Fehlerrobustheit stellt MPEG-4 Video alseinziger internationaler Standard objektbasierte Funktionalitä-ten für Anwendungen zur Verfügung. In diesem Beitrag werdendie Ziele und Techniken der MPEG-4 objektbasierten Kodierung

beschrieben. ��� Summary MPEG-4 is the first inter-national standard that supports applications with object-basedfunctionalities. This article outlines the goals and technical de-tails of the MPEG-4 object-based coding algorithm.

KEYWORDS I.4 [Image Processing] MPEG4, Video-Compression, Object-based Coding, Multimedia

1 EinführungNach der Entwicklung der erfolgrei-chen MPEG-1 und MPEG-2 Stan-dards hat die MPEG Gruppe 1999,die zunehmende Verschmelzung dertraditionell getrennten Industrie-zweige Telekommunikation, Com-puter und TV/Film berücksichti-gend, offiziell eine erste Versiondes MPEG-4 Standards verabschie-det [1]. Die MPEG Gruppe hattesich zum Ziel gesetzt neue Algorith-men für die Codierung audiovisu-eller Informationen zu entwickeln,die insbesondere eine hohe Inter-aktivität mit Ton- und Bildinhaltengewährleisten und eine hohe Da-tenkompression erzielen. Weiterhin,und dies ist eine wesentlich neueFunktionalität, ermöglicht MPEG-4 einen universellen Zugriff nichtnur auf einzelne Bilder (z. B. fürschnellen Suchlauf, Editieren undManipulieren wie bei bisherigenStandards), sondern darüber hinausfür Multimediaanwendungen auchden Zugriff auf einzelne Bildob-jekte auf Bitstromebene. Das we-

sentliche Ziel ist die Bereitstellungvon komprimierten Daten, die einehohe bildinhaltsbezogene Funktio-nalität und Flexibilität für denEndbenutzer ermöglichen – z. B.um flexibel am Empfänger einzelneBildinhalte in Videosequenzen se-parat zu decodieren, zu manipu-lieren und ggf. in andere Anwen-dungsumgebungen (in Textverar-beitungsprogramme, andere Video-sequenzen, etc.) zu kopieren. Diesalles geschieht auf Bitstromebene,ohne dass eine zusätzliche Nach-verarbeitung und Transcodierungnotwendig wird. Bieten also dieMPEG-1 und MPEG-2 Standardsbisher eine so genannte bildbezo-gene Funktionalität, so könnte manfür die MPEG-4 Video-Codierungvon bildinhaltsbezogenen Funktiona-litäten sprechen [4].

Diese inhaltsbezogenen Funk-tionalitäten werden mit MPEG-4nicht nur für herkömmliches, pi-xelbasiertes Video, sondern auchfür synthetische, computergene-rierte 2D- und 3D-Bildsequenzen

ermöglicht, um so insbesondere diehybride Codierung von natürlichenund synthetischen Bildsequenzenzu unterstützen. Es ist anzuneh-men, dass insbesondere die Ent-wicklung neuerer Computerspieleoder Telepräsenzsysteme hierdurchmaßgeblich beeinflusst wird. Aberauch dem zunehmenden Einflussder Computergrafik im Bereich derStudiotechnik (z. B. beim virtuellenStudio) wird so Rechnung getragen.

Weitere, nicht weniger wichtigeFunktionalitäten des MPEG-4 Vi-deo Standards definieren sich ausden Randbedingungen aus Übertra-gungsaspekten. Hier ist insbeson-dere die mobile Bildkommunikationberücksichtigt. Eine hohe Toleranzbzw. Anpassung der Audio- undVideoqualität bei störungsbehafteterÜbertragung und variabler Band-breite ist eine zentrale Stärke desMPEG-4 Standards – aber auchdie Möglichkeit einen MPEG-4 Bit-strom flexibel hinsichtlich varia-bler Decoderressourcen, zum Bei-spiel in Bezug auf Energieverbrauch

it – Information Technology 45 (2003) 5 Oldenbourg Verlag 273

Schwerpunktthema

oder Prozessorleistung, decodierenzu können.

MPEG-4 ist der erste internatio-nale Video-Kompressionsstandard,der objektorientierte Funktionalitä-ten und Anwendungen durch spe-zielle Codiertechniken unterstützt.Seit 1999 wird intensiv an wei-teren MPEG-4 Codiertechnologiengearbeitet, insbesondere hinsichtlicheiner skalierbaren Übertragung undeiner weiter erhöhten Kompressi-onseffizienz (MPEG-4 Advanced Vi-deo Codec – AVC).

Wegen des innovativen Charak-ters der objektbasierten Codierungwird in diesem Beitrag im Wesent-lichen die objektbasierte Kompres-sionsphilosophie von MPEG-4 undderen technische Implementierungdargestellt. Für eine detailliertereBeschreibung des MPEG-4 VisualStandards kann das MPEG-4 Buchvon Pereira & Ebrahimi [8] empfoh-len werden.

2 Der MPEG-4 VideoStandard

Der MPEG-4 Video Standard isteine konsequente Erweiterung be-reits bekannter DCT-basierter Ver-fahren mit Bewegungskompensa-tion wie MPEG-1 und MPEG-2. EinÜberblick über diese Verfahren fin-det sich in [2; 3]. Die folgenden De-tails beschreiben die grundlegendenBasiselemente und Unterschiede zuMPEG-1/2:• Standard Y:U:V Luminanz und

Chrominanz Beschreibung vonregelmäßig abgetasteten Pixelnim 4:2:0 Format. Die Intensi-tätswerte jedes Pixels sind mit8 Bit quantisiert. Die Größe unddie Form der Eingangsbilderkann, je nach Anwendung, va-riabel sein.

• Codierung von Bildsequenzenmit Hilfe mehrerer willkürlichgeformter Video Object Planes(VOP’s) für die Unterstützunginhaltsbezogener Funktionalitä-ten. Grundsätzlich sind die fürdie MPEG-4 Video Codierungzu verarbeitenden Bilder nichtmehr notwendigerweise recht-eckig wie bei MPEG-1 [5] und

MPEG-2 [6] – sondern könnenbeliebig geformt sein, wobei dieForm sich ggf. von Bild zu Bildunterscheidet.

• Codierung von Kontur- undTransparenzinformation für je-den willkürlich geformten VOPdurch die Codierung von bi-nären oder grauwertigen AlphaPlane-Bilder.

• Codierung von Intra (I) co-dierten VOP’s wie auch zeitlichprädizierten (P) und bi-direk-tional prädizierten (B) VOP’s.Die Codierung von herkömmli-chen MPEG-1/2 und H.263 [7]I, P und B-frames ist als Sonder-fall möglich.

• Unterstützung von fester undvariabler zeitlicher Bildwieder-holfrequenz (frame rate) derVOP Eingangsbilder willkürli-cher Form. Die Bildfrequenzkann wiederum abhängig vonden Anwendungsanforderungengewählt werden.

• Block-basierte (8 ×8 Pixel) so-wie Makroblock basierte (16 ×16 Pixel) Bewegungsschätzungund Bewegungskompensationin VOP’s.

• Texturcodierung in I, P und B-VOP’s mit Hilfe der DiskretenCosinus Transformation (DCT),die ggf. an Regionen willkür-licher Form an den Rändernvon VOP’s angepasst ist. Die

Bild 1 Die Codierung von Bildsequenzen mit Hilfe von MPEG-4 Video Object Planes (VOP’s) ermöglichtdie Unterstützung grundlegender inhaltsbezogener Funktionalitäten am Decoder. Jedes VOP beschreibtspezielle Bildinhalte und wird in einem separaten VOP-Layer codiert. Die Decodierung aller VOP-Layerermöglicht die Rekonstruktion der Original-Bildsequenz in ihrer Gesamtheit. Einzelne VOP-Bildinhaltekönnen separat decodiert und rekonstruiert werden (inhaltsbezogene Skalierbarkeit). Diese grundlegendeEigenschaft der VOP Struktur erlaubt die inhaltsbezogene Manipulation von Bilddaten am Decoder ohneeine erneute Transcodierung.

Quantisierung der DCT-Koeffi-zienten und die anschließendeLauflängen-Entropiecodierungwird wie bei den MPEG-1/2und H.261/3 Standards durch-geführt.

• Eine Rückwärtskompatibilitätmit den H.261/3 und MPEG-1/2Codieralgorithmen ist grund-sätzlich möglich, da auch nor-male Bildsequenzen rechtecki-ger Form in einem VOP codiertwerden können.

2.1 Unterstützung inhaltsbe-zogener Funktionalitäten– Codierung von Bildern in„Video Object Planes“

Um die oben angesprochenen bild-inhaltsbezogenen Funktionalitätenbei der MPEG-4 Videocodierungberücksichtigen zu können, hatMPEG-4 das Konzept der sogenannten Video Object Planes(VOP’s) eingeführt. Es wird hier-bei angenommen, dass jedes Bildeiner Videosequenz in segmentier-ter Form – als eine Anzahl will-kürlich geformter Bildbereiche –vorliegt (object planes). Jedes die-ser Segmente kann beispielsweiseein physikalisches Objekt in einerVideoszene beschreiben. Im Ge-gensatz zu den Bildsequenzen, dievon den herkömmlichen Standardswie MPEG-1 und MPEG-2 co-

274

MPEG-4 objektbasierte Videocodierung ���

diert werden, wird für die MPEG-4Codierung eine Bildsequenz nichtmehr notwendigerweise als rechte-ckig geformt angesehen.

Dieses Konzept der VOP Co-dierung ist in Bild 1 anhand einesBeispiels dargestellt. Eine Eingangs-bildsequenz ist hier in drei VOP’szerteilt: Hintergrund VOP1 sowiezwei Vordergrund VOP’s, VOP2undVOP3. Diese VOP’s werden nun ge-trennt codiert, wobei sich die Formund Position der zu codierendenVOP Bildfolgen von Bild zu Bildändern kann, je nach Bewegungder Bildinhalte (in unserem Bei-spiel des Autos und der Person).Die Zerlegung der Bildsequenzenkann entweder mit Hilfe so ge-nannter on-line oder semi-on-lineSegmentierungsalgorithmen durch-geführt werden, oder die einzelnenBildinhalte sind zum Beispiel durchChromakey Verfahren bereits beider Videogenerierung segmentiertvorhanden.

Grundsätzlich werden für je-den VOP entsprechende Kontur-,Textur- und Bewegungsinformatio-

a) Original

b) Binäre „Alpha-Plane“ Maske

c) Hintergrund VOP1

d) Vordergrund VOP2

e) Überlappender Hintergrund VOP

f) Vordergrund VOP2

1

Bild 2a–f Beispiel für die Beschreibung von VOP’s mit Hilfe einer binären Alpha-Plane Maske. (a) Ein Bild der Originalsequenz AKIYO. (b) BinäreAlpha-Plane Maske, die die Form und Position des Vordergrundes in VOP2 beschreibt. (c) Bildinhalt des Hintergrundes in VOP1 für nicht-überlappendeVOP’s. (d) Bildinhalt des Vordergrundes VOP2. (e) und (f) Bildinhalt des Hintergrundes in VOP1 und des Vordergrundes in VOP2 für überlappendeVOP’s.

nen in einem separaten Layer co-diert. Jeder Bitstrom-Layer beinhal-tet auch Informationen über denBildinhalt des Layers und auchdarüber, wie die unterschiedlichenLayer am Decoder wieder zusam-mengesetzt werden – um so die Ori-ginalbildsequenz mit allen VOP’s anden richtigen Positionen wieder zurekonstruieren. Aufgrund dieser In-formationen kann der Decoder nunauch einzelne Layer (z. B. Bildinhaltesowie deren Form, Bewegung undTextur) identifizieren und Objektein Bildern völlig separat von denanderen Inhalten der Originalbild-sequenz rekonstruieren. Innerhalbvon MPEG-4 wird diese Funktiona-lität – also die Möglichkeit einzelneBildinhalte zu identifizieren undvöllig separat zu decodieren undzu rekonstruieren als „inhaltsbezo-gene Skalierbarkeit“ bezeichnet. Dieinhaltsbezogene Skalierbarkeit vonVideo bildet die elementare Tech-nik, um innerhalb des MPEG-4Video Szenarios auch eine Reihe an-derer bildinhaltsbezogener MPEG-4Funktionalitäten auf Bitstromebene

ohne eine zusätzliche Segmentie-rung und Transcodierung zu er-möglichen. So zum Beispiel eineerhöhte Interaktivität mit Bildinhal-ten, die Portabilität von Bildinhaltenin Multimediaanwendungen sowiedie zeitliche und räumliche Skalier-barkeit von Bildinhalten. Die Mög-lichkeit der inhaltsbezogenen Bild-manipulation auf Bitstromebene istin Bild 1 ebenfalls skizziert, indemder Bildinhalt von VOP3 vor einemHintergrund gezeigt wird, der in derOriginalszene nicht enthalten war.

Um diese VOP-Konzept nochzu verdeutlichen, ist in Bild 2aein Bild der MPEG-4 TestsequenzAKIYO gezeigt. Die Testsequenzbesteht im Wesentlichen aus dersich bewegenden Vordergrundper-son Akiyo und einem stationärenHintergrund, hier segmentiert ineinen Vordergrund VOP2 und einenHintergrund VOP1. Ein binäres Al-pha-Plane Bild, wie in Bild 2b ge-zeigt, wird für jedes Bild der AKIYOSequenz codiert, um so dem Emp-fänger die Kontur und Positiondes Vordergrundobjektes VOP1 mit

275

Schwerpunktthema

Bezug auf den Hintergrund mit-zuteilen. Erst danach werden fürden Vordergrund, wie auch für denHintergrund, die Textur und Bewe-gungsinformationen übertragen –getrennt für beide VOP’s, um so eineseparate Decodierung zu ermögli-chen. Grundsätzlich ist im Algorith-mus des MPEG-4 Video Standardsauch die Möglichkeit der Grauwert-Alpha-Plane Codierung vorgesehen,um ggf. verschiedene Stufen vonTransparenz zwischen VOP’s bei derRekonstruktion zu berücksichtigen.

Bild 2c und 2d zeigen am Bei-spiel des Originalbildes und der Seg-mentierungsmaske in Bild 2a und2b die Bildinhalte der beiden zu co-dierenden VOP’s. Die VOP’s sind indiesem Beispiel nicht-überlappend,d. h. die Summe der Pixel in bei-den VOP’s entspricht der des Ori-ginalbildes in Bild 2a. Beide VOP’ssind willkürlich geformt (VOP1 hatein Loch willkürlicher Form in derMitte) und die Kontur und Posi-tion der VOP’s hängt, wie bereitsangedeutet, von der Bewegung derVordergrundperson ab. MPEG-4 er-laubt zusätzlich die Codierung vonsich überlappenden VOP’s wie inden Bildern 2e und 2f dargestellt.Der Vordergrund in Bild 2f ist iden-tisch mit dem in Bild 2d – allerdingsist in diesem Beispiel der Hinter-grund in VOP1 rechteckig geformtund beschreibt den gesamten, alsoauch den von der Vordergrundper-son verdeckten, Hintergrund. Auchin dieser Anwendung werden beideVOP separat codiert, um so dieseparate Decodierung und Rekon-struktion von nur Hintergrund oderVordergrund zu ermöglichen. Wennder Bildinhalt des Hintergrundes inVOP1 stationär ist, sich also nichtverändert, genügt bei der MPEG-4 Codierung die Übertragung eineseinzelnen Hintergrundbildes, umzusammen mit der Information desVOP2 Layers die Rekonstruktion derOriginalsequenz zu ermöglichen.

Auf alle Fälle unterstützt MPEG-4 auch die Codierung von nureinem VOP mit normalen recht-eckigen Bildsequenzen, um so eineCodierung wie bei MPEG-1/2 oder

H.261/3 zu ermöglichen. In diesemSinne kann das VOP Konzept alskonsequente Erweiterung des her-kömmlichen Single Layer Konzeptesmit rechteckigen Bildern angesehenwerden, wobei die Möglichkeit derCodierung wie bei den MPEG Stan-dards als Sonderfall in dem MPEG-4Szenario enthalten ist.

2.2 Codierung der Kontur-,Bewegungs- und Texturin-formation innerhalb einesVOP’s

Wie in Bild 1 angedeutet, werdendie Informationen hinsichtlich Kon-tur, Bewegung und Textur für jedenVOP in einem separaten VOP-Layercodiert um so grundsätzlich ein se-parates Decodieren der VOP’s zuermöglichen. Der MPEG-4 VideoStandard nutzt einen identischenCodieralgorithmus für jeden VOP-Layer. Dieser Codieralgorithmus ba-siert auf viele der Techniken undTools, die schon bei den MPEG-1/2und H.261/3 Algorithmen erfolg-reich zur Anwendung kommen [1].Wie in Bild 3a anhand einer Bildse-quenz dargestellt (hier als Sonderfalleines VOP’s mit rechteckigen Bil-dern), wird das erste VOP-Bild inIntra Mode codiert (I-VOP). Je-des danach folgende Bild wird mitHilfe einer Inter-Bild Prädiktion (P-VOP) codiert – also nur Pixel desletzten schon codierten VOP-Bildeswerden für eine bewegungskompen-sierte Prädiktion genutzt. MPEG-4 unterstützt ebenfalls die Codie-rung von bi-direktional prädiziertenVOP-Bildern (B-VOP’s). Für recht-eckige Bildsequenzen ist die P-VOPund B-VOP Prädiktion identisch

Bild 3 (a) I-Bild VOP(I-VOP) und P-Bild VOP’s(P-VOP’s) in einer Vi-deosequenz. (b) Fürjeden Makroblock (MB,16 × 16 Pixel) werdenPixelinformationen für vierLuminanz Blöcke (Y1, Y2,Y3, Y4, jeder 8 × 8 Pixel)codiert.

mit der Standard MPEG P-frameund B-frame Prädiktion.

Ähnlich wie bei den H.261/3und MPEG-1/2 Standards werdenVOP-Bilder mit dem MPEG-4 Ver-fahren blockbasiert verarbeitet undcodiert. In einem ersten Schritt wirdjedoch mit Hilfe der Konturcodie-rung für ein VOP-Bild zunächst dieKonturinformation codiert, um somit dem Decoder gemeinsam einBlockraster zu definieren – dazuwird jedes VOP-Farbbild entspre-chend seiner Form in sich nichtüberlappende Makroblöcke zerteilt.Dies ist anhand der rechteckigenVOP-Bildsequenz in Bild 3b darge-stellt und in Bild 5 für ein will-kürlich geformtes VOP-Bild. JederMakroblock besteht dabei aus 6 Blö-cken, die jeweils Pixel aus den Lu-minanz und Chrominanzbändernenthalten – vier Luminanz Blöcke(Y1, Y2, Y3, Y4) und zwei Chro-minanz Blöcke (U, V), jeder Blockmit 8 ×8 Pixeln. Das grundlegendeMPEG-4 Codierschema für die Co-dierung der Y- und U-Blöcke ist, wiebereits bei den MPEG und ITU-TStandards, ein hybrides blockbasier-tes MC/DCT Verfahren – bestehendaus Verfahren zur bewegungskom-pensierten Prädiktion (motion com-pensated: MC) von Pixeln zwischenVOP-Bildern und der Codierungder Prädiktionsfehler mit Hilfe derDiskreten Cosinus Transformation(DCT). Die Struktur dieses Codier-systems ist in Bild 4 skizziert. Einbereits codiertes VOP-Bild N – 1 istin einem VOP-Bildpeicher (framestore: FS) am Coder und Deco-der gespeichert. Eine bewegungs-kompensierte Prädiktion (MC) wird

276

MPEG-4 objektbasierte Videocodierung ���

Bild 4 Blockdiagramm eines MPEG-4 Coders und Decoders. Das grundlegende Codierschema ist wiebei den MPEG-1 und MPEG-2 Standards blockorientiert und basiert auf dem erfolgreichen Konzeptder hybriden MC/DCT Codierphilosophie.

Bild 5 Beispiel eines konturadaptiven MPEG-4 Makroblock-Gitters für das AKIYO Vordergrund VOP2Bild. Ein VOP-Fenster, mit einer Größe, die einem Vielfachen von 16 × 16 Pixeln entspricht, umrandetdas Vordergrundobjekt und spezifiziert so konturadaptiv ein Makroblock-Gitter. Das VOP-Fensterberührt am oberen Ende und an der linken Seite die Kontur des Vordergrundobjektes. Ein Shift-Parameter beschreibt die Position des VOP-Fensters innerhalb eines „Referenzfensters“.

wahlweise auf Block oder Makro-blöcken durchgeführt – nur einBewegungsvektor wird für je einenBlock oder Makroblock codiert [1].Der Prädiktionsfehler wird berech-net, indem jeder Pixelwert in einemBlock oder Makroblock in VOP-BildN von seinem bewegungsverschobe-nen Äquivalent im vorherigen VOP-Bild N – 1 subtrahiert wird. Zur Co-dierung wird dann eine 8 ×8 DCTauf jeden Block angewandt. DieTransformations-Koeffizienten wer-den daraufhin quantisiert (Q) undmit einer Lauflängen- und Entro-

piecodierung (VLC) codiert. EinVOP-Buffer (VB) wird genutzt, umggf. eine konstante Bitrate am Co-derausgang zu generieren. Für dieRegelung der Bildqualität in Abhän-gigkeit der zur Verfügung stehendenDatenrate kann die Quantisierungs-schrittweite (sz) der DCT-Koeffizi-enten genutzt werden. Der VOP-Decoder nutzt im Wesentlichen denumgekehrten Prozess zur Rekon-struktion der VOP-Bilder.

Im Allgemeinen können die zucodierenden VOP-Bilder willkürlichgeformt sein und die Form und Po-

sition der VOP-Bilder kann sich,in Bezug auf ein über eine VOP-Sequenz konstantes Referenzfenster,von Bild zu Bild ändern. MPEG-4 nutzt hierfür ein Konzept fürdie blockbasierte Codierung, das aufder Definition eines VOP-Bildfens-ters variabler Form und Positionbasiert. Dieses VOP-Bildfenster istin Bild 5 skizziert und bewegt sichinnerhalb des oben angesprochenenReferenzfensters konstanter Größeund Position. Alle zu codierendenVOP’s einer Bildsequenz sind inBezug auf dieses Referenzfenster de-finiert. Für jedes VOP-Bild wirddann mit Hilfe des entsprechen-den VOP-Fensters in einem ers-ten Schritt die Konturinformationdes VOP’s codiert. Sowohl Coderwie auch Decoder verfügen dannüber die VOP-Konturinformation,die in einem nächsten Schritt fürdie Definition eines konturange-passten Makroblock-Gitters genutztwird. In weiteren Schritten wird nurBewegungs- und Texturinformationfür die Blöcke und Makroblöcke co-diert, die entweder ganz innerhalbeines VOP’s liegen, oder aber dieKontur eines VOP’s schneiden.

Konturcodierung. Grundsätzlich wirddie Konturcodierung in MPEG-4 alsAlpha-Plane Codierung bezeichnet.MPEG-4 hat zwei Arten der Alpha-Plane Codierung vorgesehen: die bi-näre Alpha-Plane Codierung (sieheauch Bild 2b) und die Codierungvon grauwertigen Alpha-Planes. Fürdie binäre Alpha-Plane Codierungist ein hierarchischer blockbasierterQuadtree Algorithmus beschrieben.Für die Alpha-Plane Grauwertcodie-rung, mit der neben der Konturin-formation auch noch Transparenzzwischen VOP’s zum Decoder si-gnalisiert wird, ist ein QuadtreeAlgorithmus mit Grauwert-Vektor-quantisierung spezifiziert.

Bewegungsschätzung und Bewe-gungskompensation. Für die block-oder makroblockbasierte Bewe-gungsschätzung und Bewegungs-kompensation zwischen aufeinander

277

Schwerpunktthema

Bild 6 Block-MatchingVerfahren für die Be-wegungsschätzung undBewegungskompensation.

folgenden VOP-Bildern unterschied-licher Form und Position wird daskonturadaptive Makroblock-Gittergenutzt. Ein Standard Block-Mat-ching Verfahren [1], wie in Bild 6dargestellt, wird benutzt, um füreinen Block oder Makroblock inVOP-Bild N einen Bewegungsvektor(mv) aus einem VOP-Bild N – 1 zuschätzen. MPEG-4 unterstützt dieCodierung von einem Bewegungs-vektor pro 8 ×8 Block oder 16 ×16Makroblock sowie eine blocküber-lappende Bewegungskompensation,wie sie etwa für den ITU H.263Standard spezifiziert wurde [7].

Für die Bewegungsschätzungund -kompensation von Pixeln inBlöcken an Konturgrenzen mussdas oben beschriebene Verfahrenjedoch angepasst werden. Hierfürwird bei MPEG-4 Video ein Pi-xel-Extrapolationsverfahren für dasVOP-Referenzbild N – 1 genutzt.Ziel der Pixel-Extrapolation ist es,

Bild 7 Pixel-Extrapolationaußerhalb der VOP-Grenzen für die Be-wegungsschätzung,Bewegungskompensationund die DCT-Codierung derTextur.

im VOP Referenzbild N – 1 für dieBewegungsschätzung und die Be-wegungskompensation Pixelwerteaußerhalb der Kontur des ursprüng-lichen VOP-Bildes zu erzeugen,um so eine umfassende Vektorsu-che zu ermöglichen. In Bild 7 istdas Ergebnis einer solchen Pixel-Extrapolation dargestellt. Für dieVektorsuche werden dann allerdingsim zu codierenden VOP-Bild N nurdie Pixel genutzt, die innerhalb desVOP-Bildes liegen.

Texturcodierung. Wie angedeutetwerden sowohl in I-VOP’s wie auchdie Prädiktionsfehler in P- oder B-VOP’s mit Hilfe der 8 × 8 DCTcodiert. Wiederum ist für die Blöckean den VOP-Grenzen eine Anpas-sung notwendig, da innerhalb einesBlockes die Werte der Pixel, dienicht zum VOP-Bild gehören, nichtdefiniert sind. Auch hier werdendie Werte dieser Pixel mit Hilfe

der oben beschriebenen Pixel-Ex-trapolation berechnet, um so dieCodiereffizienz zu erhöhen (sieheBild 7).

Multiplexen der Kontur-, Bewegungs-und Texturinformation. Nahezu alleTools (z. B. die DCT, blockbasierteBewegungskompensation, etc.), wiesie in den H.263 und MPEG-1 bzw.MPEG-2/Main Profile Standards de-finiert sind, werden von MPEG-4unterstützt. Die komprimierten Al-pha-Plane-Informationen sowie dieBewegungsvektoren und DCT-Bitswerden für jeden VOP in eineneigenen VOP-Layer Bitstrom multi-plext, indem zunächst die Kontur-information übertragen/gespeichertwird, gefolgt von Bewegungsvektor-Bits und DCT-Bits ausgehend vonMPEG und H.263 Makroblockdefi-nitionen.

3 Zusammenfassung undAusblick

In diesem Aufsatz wurden die Zieleund die grundlegende Struktur desobjektbasierten Teils des MPEG-4 Video Codierstandards aufge-zeigt. Es ist allerdings hervorzu-heben, dass MPEG-4 alle bereitsbekannten Funktionalitäten existie-render Videokompressionsverfahren(MPEG-1, MPEG-2, H.263, etc.)mit großer Effizienz ermöglicht.Dies betrifft hauptsächlich die Kom-pression von herkömmlichen Vi-deosequenzen mit hoher Quali-tät und die hohe Robustheit vonMPEG-4 bei Übertragungsfehlernin mobilen Netzen.

Die neue, inhaltsbezogene Funk-tionalität unterscheidet MPEG-4von allen bisher bekannten Vi-deokompressionsverfahren. DieseFunktionalität ermöglicht eine Viel-zahl von innovativen Produktenin einem breiten Spektrum vonAnwendungsfeldern. Aus der Viel-zahl möglicher Anwendungen istin Bild 8 eine immersive Video-Te-lekommunikationsanwendung mitMPEG-4 Codierung skizziert. Zieldieser MPEG-4 Anwendung ist einehohe Telepräsenz bei Videokonfe-renzsystemen. Teilnehmer an un-

278

MPEG-4 objektbasierte Videocodierung ���

Bild 8 Immersive Mixed-Reality Videokonferenz mit MPEG-4 (Quelle: Heinrich Hertz Institut, FhG,Berlin). Die Teilnehmer der Konferenz an unterschiedlichen Standorten sind segmentiert, mit MPEG-4 VOP’s übertragen und in einer virtuellen Konferenzumgebung zusammengemischt. Es entstehtder Eindruck einer normalen Tisch-Konferenzsituation mit gegenüber herkömmlicher Videokonferenzerhöhter Telepräsenz.

terschiedlichen Standorten werdenseparat aufgenommen. Die jeweiligePerson im Videobild wird mittelsBild-Segmentierungsverfahren vomHintergrund getrennt und separatals MPEG-4 Objekt (VOP) zu denanderen Teilnehmern übertragen.Bei den Empfängern werden alleso als MPEG-4 Objekte übertrage-nen Personen in ein gemeinsamesBild mit neuem Hintergrund zu-sammengemischt. Hierdurch lässtsich – bei entsprechender Übertra-gungsqualität – eine normale Tisch-Konferenzsituation mit hoher Tele-präsenz erzeugen.

Interessant ist die Frage, ob sicheine solche inhaltsbezogene Funk-tionalität mit MPEG-4 bit-effizientunterstützen lässt. Tatsächlich zei-gen die Feldversuche in MPEG, dassBilder entweder objektbasiert odernormal wie bei MPEG-2 mit etwagleicher Bitrate und Qualität über-tragen werden können. Durch dieUnterstützung der objektbasiertenKodierung ist also kein Verlust anCodiereffizienz zu beobachten. Al-lerdings steigt die Komplexität vonCoder- und Decoderhardware bzw.-Software.

Eine solche MPEG-4 Teleprä-senzanwendung ist im Rahmen ver-schiedener europäischer und natio-

naler Projekte bereits implementiertworden, in Deutschland am Hein-rich-Hertz-Institut der FraunhoferGesellschaft in Berlin. Andere Pro-jekte konzentrieren sich auf Inter-netanwendungen wie z. B. im EUProjekt SoNG (portals of Next Ge-neration, www.song-opi.org). Hierwurde ein virtueller Telefonshopentwickelt, bei dem ein Verkäuferper segmentiertem Video den Kun-den beim Kaufen beraten kann.

Zum heutigen Zeitpunkt ha-ben sich aber noch keine nen-nenswerten Produkte am Marktetabliert, die die neuen, inhalts-basierten MPEG-4 Funktionalitätennutzen. Die nächsten 5 Jahre wer-den zeigen, ob sich diese Funk-tionalitäten am Markt durchset-zen können. Dagegen haben sichdie herkömmlichen Funktionalitä-ten von MPEG-4 (Kompression undFehlerrobustheit) bereits in vielenAnwendungen bewährt, wie bei-spielsweise in Camcordern und invielen Mobiltelefonen. Insbesondereim Internet ist MPEG-4 ein be-liebtes Format für die Übertra-gung und Speicherung von digita-lem Video, getrieben von Produk-ten wie z. B. DIVX und XviD unddas open Source Projekt MPEG4IP(http://mpeg4ip.sourceforge.net).

Literatur[1] T. Sikora, L Chiariglione: „The MPEG-4

Video Standard and its Potential for

Future Multimedia Applications“, IEEE

ISCAS Conference, Honkong, June

1997.

[2] T. Sikora: "„MPEG Digital Video

Coding Standards“, IEEE Signal

Processing Magazine, Vol. 14, No. 5,

September 1997.

[3] R. Schäfer, T. Sikora: „Digital video

coding standards and their role in

video communications“, Proc. of the

IEEE, Vol. 83, No. 6, June 1995.

[4] T. Sikora: „The MPEG-4 Video

Standard Verification Model“, IEEE

Trans. Circuits and System for Video

Technology, Vol. 7, No. 1, February

1997.

[5] D. J. Le Gall: „The MPEG Video

Compression Algorithm“, Signal

Processing: Image Communication,

Vol. 4, No. 4, 1992.

[6] ISO/IEC 13818-2 MPEG-2 Video

Coding Standard: „Information

Technology – Generic Coding of

Moving Pictures and Associated Audio

Information: Video“, March 1995.

[7] ITU-T Group for Line Transmission

of Non-Telephone Signals: „Draft Re-

commendation H.263 – Video Coding

for Low Bitrate Communication“,

December 1995.

[8] F. Pereira, T. Ebrahimi: „The MPEG-4

Book“, Prentice Hall, 2002.

Prof. Dr.-Ing. Thomas Sikora lehrt an der

Technischen Universität Berlin im Fachgebiet

Nachrichtenübertragung. Er beschäftigt

sich seit etwa 15 Jahren mit Aspekten der

Videokodierung. Als Chairman der ISO-

MPEG-Gruppe war er verantwortlich für die

Entwicklung des MPEG-4 Standards.

Adresse: Technische Universität Berlin,

Institut für Telekommunikationssysteme,

Fachgebiet Nachrichtenübertragung, Sekr.

EN 1, Einsteinufer 17, D-10587 Berlin.

E-Mail: [email protected]

279