MPEG-4 objektbasierte Videocodierung · beitungsprogramme, andere Video-sequenzen, etc.) zu...

it 5/2003

Schwerpunktthema ��

MPEG-4 objektbasierteVideocodierung

MPEG-4 Object-Based Video Coding

Thomas Sikora, Technische Universität Berlin

Zusammenfassung Neben einer hohen Kompressionseffizi-enz und einer guten Fehlerrobustheit stellt MPEG-4 Video alseinziger internationaler Standard objektbasierte Funktionalitä-ten für Anwendungen zur Verfügung. In diesem Beitrag werdendie Ziele und Techniken der MPEG-4 objektbasierten Kodierung

beschrieben. �� Summary MPEG-4 is the first inter-national standard that supports applications with object-basedfunctionalities. This article outlines the goals and technical de-tails of the MPEG-4 object-based coding algorithm.

KEYWORDS I.4 [Image Processing] MPEG4, Video-Compression, Object-based Coding, Multimedia

1 EinführungNach der Entwicklung der erfolgrei-chen MPEG-1 und MPEG-2 Stan-dards hat die MPEG Gruppe 1999,die zunehmende Verschmelzung dertraditionell getrennten Industrie-zweige Telekommunikation, Com-puter und TV/Film berücksichti-gend, offiziell eine erste Versiondes MPEG-4 Standards verabschie-det [1]. Die MPEG Gruppe hattesich zum Ziel gesetzt neue Algorith-men für die Codierung audiovisu-eller Informationen zu entwickeln,die insbesondere eine hohe Inter-aktivität mit Ton- und Bildinhaltengewährleisten und eine hohe Da-tenkompression erzielen. Weiterhin,und dies ist eine wesentlich neueFunktionalität, ermöglicht MPEG-4 einen universellen Zugriff nichtnur auf einzelne Bilder (z. B. fürschnellen Suchlauf, Editieren undManipulieren wie bei bisherigenStandards), sondern darüber hinausfür Multimediaanwendungen auchden Zugriff auf einzelne Bildob-jekte auf Bitstromebene. Das we-

sentliche Ziel ist die Bereitstellungvon komprimierten Daten, die einehohe bildinhaltsbezogene Funktio-nalität und Flexibilität für denEndbenutzer ermöglichen – z. B.um flexibel am Empfänger einzelneBildinhalte in Videosequenzen se-parat zu decodieren, zu manipu-lieren und ggf. in andere Anwen-dungsumgebungen (in Textverar-beitungsprogramme, andere Video-sequenzen, etc.) zu kopieren. Diesalles geschieht auf Bitstromebene,ohne dass eine zusätzliche Nach-verarbeitung und Transcodierungnotwendig wird. Bieten also dieMPEG-1 und MPEG-2 Standardsbisher eine so genannte bildbezo-gene Funktionalität, so könnte manfür die MPEG-4 Video-Codierungvon bildinhaltsbezogenen Funktiona-litäten sprechen [4].

Diese inhaltsbezogenen Funk-tionalitäten werden mit MPEG-4nicht nur für herkömmliches, pi-xelbasiertes Video, sondern auchfür synthetische, computergene-rierte 2D- und 3D-Bildsequenzen

ermöglicht, um so insbesondere diehybride Codierung von natürlichenund synthetischen Bildsequenzenzu unterstützen. Es ist anzuneh-men, dass insbesondere die Ent-wicklung neuerer Computerspieleoder Telepräsenzsysteme hierdurchmaßgeblich beeinflusst wird. Aberauch dem zunehmenden Einflussder Computergrafik im Bereich derStudiotechnik (z. B. beim virtuellenStudio) wird so Rechnung getragen.

Weitere, nicht weniger wichtigeFunktionalitäten des MPEG-4 Vi-deo Standards definieren sich ausden Randbedingungen aus Übertra-gungsaspekten. Hier ist insbeson-dere die mobile Bildkommunikationberücksichtigt. Eine hohe Toleranzbzw. Anpassung der Audio- undVideoqualität bei störungsbehafteterÜbertragung und variabler Band-breite ist eine zentrale Stärke desMPEG-4 Standards – aber auchdie Möglichkeit einen MPEG-4 Bit-strom flexibel hinsichtlich varia-bler Decoderressourcen, zum Bei-spiel in Bezug auf Energieverbrauch

it – Information Technology 45 (2003) 5 Oldenbourg Verlag 273

Schwerpunktthema

oder Prozessorleistung, decodierenzu können.

MPEG-4 ist der erste internatio-nale Video-Kompressionsstandard,der objektorientierte Funktionalitä-ten und Anwendungen durch spe-zielle Codiertechniken unterstützt.Seit 1999 wird intensiv an wei-teren MPEG-4 Codiertechnologiengearbeitet, insbesondere hinsichtlicheiner skalierbaren Übertragung undeiner weiter erhöhten Kompressi-onseffizienz (MPEG-4 Advanced Vi-deo Codec – AVC).

Wegen des innovativen Charak-ters der objektbasierten Codierungwird in diesem Beitrag im Wesent-lichen die objektbasierte Kompres-sionsphilosophie von MPEG-4 undderen technische Implementierungdargestellt. Für eine detailliertereBeschreibung des MPEG-4 VisualStandards kann das MPEG-4 Buchvon Pereira & Ebrahimi [8] empfoh-len werden.

2 Der MPEG-4 VideoStandard

Der MPEG-4 Video Standard isteine konsequente Erweiterung be-reits bekannter DCT-basierter Ver-fahren mit Bewegungskompensa-tion wie MPEG-1 und MPEG-2. EinÜberblick über diese Verfahren fin-det sich in [2; 3]. Die folgenden De-tails beschreiben die grundlegendenBasiselemente und Unterschiede zuMPEG-1/2:• Standard Y:U:V Luminanz und

Chrominanz Beschreibung vonregelmäßig abgetasteten Pixelnim 4:2:0 Format. Die Intensi-tätswerte jedes Pixels sind mit8 Bit quantisiert. Die Größe unddie Form der Eingangsbilderkann, je nach Anwendung, va-riabel sein.

• Codierung von Bildsequenzenmit Hilfe mehrerer willkürlichgeformter Video Object Planes(VOP’s) für die Unterstützunginhaltsbezogener Funktionalitä-ten. Grundsätzlich sind die fürdie MPEG-4 Video Codierungzu verarbeitenden Bilder nichtmehr notwendigerweise recht-eckig wie bei MPEG-1 [5] und

MPEG-2 [6] – sondern könnenbeliebig geformt sein, wobei dieForm sich ggf. von Bild zu Bildunterscheidet.

• Codierung von Kontur- undTransparenzinformation für je-den willkürlich geformten VOPdurch die Codierung von bi-nären oder grauwertigen AlphaPlane-Bilder.

• Codierung von Intra (I) co-dierten VOP’s wie auch zeitlichprädizierten (P) und bi-direk-tional prädizierten (B) VOP’s.Die Codierung von herkömmli-chen MPEG-1/2 und H.263 [7]I, P und B-frames ist als Sonder-fall möglich.

• Unterstützung von fester undvariabler zeitlicher Bildwieder-holfrequenz (frame rate) derVOP Eingangsbilder willkürli-cher Form. Die Bildfrequenzkann wiederum abhängig vonden Anwendungsanforderungengewählt werden.

• Block-basierte (8 ×8 Pixel) so-wie Makroblock basierte (16 ×16 Pixel) Bewegungsschätzungund Bewegungskompensationin VOP’s.

• Texturcodierung in I, P und B-VOP’s mit Hilfe der DiskretenCosinus Transformation (DCT),die ggf. an Regionen willkür-licher Form an den Rändernvon VOP’s angepasst ist. Die

Bild 1 Die Codierung von Bildsequenzen mit Hilfe von MPEG-4 Video Object Planes (VOP’s) ermöglichtdie Unterstützung grundlegender inhaltsbezogener Funktionalitäten am Decoder. Jedes VOP beschreibtspezielle Bildinhalte und wird in einem separaten VOP-Layer codiert. Die Decodierung aller VOP-Layerermöglicht die Rekonstruktion der Original-Bildsequenz in ihrer Gesamtheit. Einzelne VOP-Bildinhaltekönnen separat decodiert und rekonstruiert werden (inhaltsbezogene Skalierbarkeit). Diese grundlegendeEigenschaft der VOP Struktur erlaubt die inhaltsbezogene Manipulation von Bilddaten am Decoder ohneeine erneute Transcodierung.

Quantisierung der DCT-Koeffi-zienten und die anschließendeLauflängen-Entropiecodierungwird wie bei den MPEG-1/2und H.261/3 Standards durch-geführt.

• Eine Rückwärtskompatibilitätmit den H.261/3 und MPEG-1/2Codieralgorithmen ist grund-sätzlich möglich, da auch nor-male Bildsequenzen rechtecki-ger Form in einem VOP codiertwerden können.

2.1 Unterstützung inhaltsbe-zogener Funktionalitäten– Codierung von Bildern in„Video Object Planes“

Um die oben angesprochenen bild-inhaltsbezogenen Funktionalitätenbei der MPEG-4 Videocodierungberücksichtigen zu können, hatMPEG-4 das Konzept der sogenannten Video Object Planes(VOP’s) eingeführt. Es wird hier-bei angenommen, dass jedes Bildeiner Videosequenz in segmentier-ter Form – als eine Anzahl will-kürlich geformter Bildbereiche –vorliegt (object planes). Jedes die-ser Segmente kann beispielsweiseein physikalisches Objekt in einerVideoszene beschreiben. Im Ge-gensatz zu den Bildsequenzen, dievon den herkömmlichen Standardswie MPEG-1 und MPEG-2 co-

274

MPEG-4 objektbasierte Videocodierung ��

diert werden, wird für die MPEG-4Codierung eine Bildsequenz nichtmehr notwendigerweise als rechte-ckig geformt angesehen.

Dieses Konzept der VOP Co-dierung ist in Bild 1 anhand einesBeispiels dargestellt. Eine Eingangs-bildsequenz ist hier in drei VOP’szerteilt: Hintergrund VOP1 sowiezwei Vordergrund VOP’s, VOP2undVOP3. Diese VOP’s werden nun ge-trennt codiert, wobei sich die Formund Position der zu codierendenVOP Bildfolgen von Bild zu Bildändern kann, je nach Bewegungder Bildinhalte (in unserem Bei-spiel des Autos und der Person).Die Zerlegung der Bildsequenzenkann entweder mit Hilfe so ge-nannter on-line oder semi-on-lineSegmentierungsalgorithmen durch-geführt werden, oder die einzelnenBildinhalte sind zum Beispiel durchChromakey Verfahren bereits beider Videogenerierung segmentiertvorhanden.

Grundsätzlich werden für je-den VOP entsprechende Kontur-,Textur- und Bewegungsinformatio-

a) Original

b) Binäre „Alpha-Plane“ Maske

c) Hintergrund VOP1

d) Vordergrund VOP2

e) Überlappender Hintergrund VOP

f) Vordergrund VOP2

1

Bild 2a–f Beispiel für die Beschreibung von VOP’s mit Hilfe einer binären Alpha-Plane Maske. (a) Ein Bild der Originalsequenz AKIYO. (b) BinäreAlpha-Plane Maske, die die Form und Position des Vordergrundes in VOP2 beschreibt. (c) Bildinhalt des Hintergrundes in VOP1 für nicht-überlappendeVOP’s. (d) Bildinhalt des Vordergrundes VOP2. (e) und (f) Bildinhalt des Hintergrundes in VOP1 und des Vordergrundes in VOP2 für überlappendeVOP’s.

nen in einem separaten Layer co-diert. Jeder Bitstrom-Layer beinhal-tet auch Informationen über denBildinhalt des Layers und auchdarüber, wie die unterschiedlichenLayer am Decoder wieder zusam-mengesetzt werden – um so die Ori-ginalbildsequenz mit allen VOP’s anden richtigen Positionen wieder zurekonstruieren. Aufgrund dieser In-formationen kann der Decoder nunauch einzelne Layer (z. B. Bildinhaltesowie deren Form, Bewegung undTextur) identifizieren und Objektein Bildern völlig separat von denanderen Inhalten der Originalbild-sequenz rekonstruieren. Innerhalbvon MPEG-4 wird diese Funktiona-lität – also die Möglichkeit einzelneBildinhalte zu identifizieren undvöllig separat zu decodieren undzu rekonstruieren als „inhaltsbezo-gene Skalierbarkeit“ bezeichnet. Dieinhaltsbezogene Skalierbarkeit vonVideo bildet die elementare Tech-nik, um innerhalb des MPEG-4Video Szenarios auch eine Reihe an-derer bildinhaltsbezogener MPEG-4Funktionalitäten auf Bitstromebene

ohne eine zusätzliche Segmentie-rung und Transcodierung zu er-möglichen. So zum Beispiel eineerhöhte Interaktivität mit Bildinhal-ten, die Portabilität von Bildinhaltenin Multimediaanwendungen sowiedie zeitliche und räumliche Skalier-barkeit von Bildinhalten. Die Mög-lichkeit der inhaltsbezogenen Bild-manipulation auf Bitstromebene istin Bild 1 ebenfalls skizziert, indemder Bildinhalt von VOP3 vor einemHintergrund gezeigt wird, der in derOriginalszene nicht enthalten war.

Um diese VOP-Konzept nochzu verdeutlichen, ist in Bild 2aein Bild der MPEG-4 TestsequenzAKIYO gezeigt. Die Testsequenzbesteht im Wesentlichen aus dersich bewegenden Vordergrundper-son Akiyo und einem stationärenHintergrund, hier segmentiert ineinen Vordergrund VOP2 und einenHintergrund VOP1. Ein binäres Al-pha-Plane Bild, wie in Bild 2b ge-zeigt, wird für jedes Bild der AKIYOSequenz codiert, um so dem Emp-fänger die Kontur und Positiondes Vordergrundobjektes VOP1 mit

275

Schwerpunktthema

Bezug auf den Hintergrund mit-zuteilen. Erst danach werden fürden Vordergrund, wie auch für denHintergrund, die Textur und Bewe-gungsinformationen übertragen –getrennt für beide VOP’s, um so eineseparate Decodierung zu ermögli-chen. Grundsätzlich ist im Algorith-mus des MPEG-4 Video Standardsauch die Möglichkeit der Grauwert-Alpha-Plane Codierung vorgesehen,um ggf. verschiedene Stufen vonTransparenz zwischen VOP’s bei derRekonstruktion zu berücksichtigen.

Bild 2c und 2d zeigen am Bei-spiel des Originalbildes und der Seg-mentierungsmaske in Bild 2a und2b die Bildinhalte der beiden zu co-dierenden VOP’s. Die VOP’s sind indiesem Beispiel nicht-überlappend,d. h. die Summe der Pixel in bei-den VOP’s entspricht der des Ori-ginalbildes in Bild 2a. Beide VOP’ssind willkürlich geformt (VOP1 hatein Loch willkürlicher Form in derMitte) und die Kontur und Posi-tion der VOP’s hängt, wie bereitsangedeutet, von der Bewegung derVordergrundperson ab. MPEG-4 er-laubt zusätzlich die Codierung vonsich überlappenden VOP’s wie inden Bildern 2e und 2f dargestellt.Der Vordergrund in Bild 2f ist iden-tisch mit dem in Bild 2d – allerdingsist in diesem Beispiel der Hinter-grund in VOP1 rechteckig geformtund beschreibt den gesamten, alsoauch den von der Vordergrundper-son verdeckten, Hintergrund. Auchin dieser Anwendung werden beideVOP separat codiert, um so dieseparate Decodierung und Rekon-struktion von nur Hintergrund oderVordergrund zu ermöglichen. Wennder Bildinhalt des Hintergrundes inVOP1 stationär ist, sich also nichtverändert, genügt bei der MPEG-4 Codierung die Übertragung eineseinzelnen Hintergrundbildes, umzusammen mit der Information desVOP2 Layers die Rekonstruktion derOriginalsequenz zu ermöglichen.

Auf alle Fälle unterstützt MPEG-4 auch die Codierung von nureinem VOP mit normalen recht-eckigen Bildsequenzen, um so eineCodierung wie bei MPEG-1/2 oder

H.261/3 zu ermöglichen. In diesemSinne kann das VOP Konzept alskonsequente Erweiterung des her-kömmlichen Single Layer Konzeptesmit rechteckigen Bildern angesehenwerden, wobei die Möglichkeit derCodierung wie bei den MPEG Stan-dards als Sonderfall in dem MPEG-4Szenario enthalten ist.

2.2 Codierung der Kontur-,Bewegungs- und Texturin-formation innerhalb einesVOP’s

Wie in Bild 1 angedeutet, werdendie Informationen hinsichtlich Kon-tur, Bewegung und Textur für jedenVOP in einem separaten VOP-Layercodiert um so grundsätzlich ein se-parates Decodieren der VOP’s zuermöglichen. Der MPEG-4 VideoStandard nutzt einen identischenCodieralgorithmus für jeden VOP-Layer. Dieser Codieralgorithmus ba-siert auf viele der Techniken undTools, die schon bei den MPEG-1/2und H.261/3 Algorithmen erfolg-reich zur Anwendung kommen [1].Wie in Bild 3a anhand einer Bildse-quenz dargestellt (hier als Sonderfalleines VOP’s mit rechteckigen Bil-dern), wird das erste VOP-Bild inIntra Mode codiert (I-VOP). Je-des danach folgende Bild wird mitHilfe einer Inter-Bild Prädiktion (P-VOP) codiert – also nur Pixel desletzten schon codierten VOP-Bildeswerden für eine bewegungskompen-sierte Prädiktion genutzt. MPEG-4 unterstützt ebenfalls die Codie-rung von bi-direktional prädiziertenVOP-Bildern (B-VOP’s). Für recht-eckige Bildsequenzen ist die P-VOPund B-VOP Prädiktion identisch

Bild 3 (a) I-Bild VOP(I-VOP) und P-Bild VOP’s(P-VOP’s) in einer Vi-deosequenz. (b) Fürjeden Makroblock (MB,16 × 16 Pixel) werdenPixelinformationen für vierLuminanz Blöcke (Y1, Y2,Y3, Y4, jeder 8 × 8 Pixel)codiert.

mit der Standard MPEG P-frameund B-frame Prädiktion.

Ähnlich wie bei den H.261/3und MPEG-1/2 Standards werdenVOP-Bilder mit dem MPEG-4 Ver-fahren blockbasiert verarbeitet undcodiert. In einem ersten Schritt wirdjedoch mit Hilfe der Konturcodie-rung für ein VOP-Bild zunächst dieKonturinformation codiert, um somit dem Decoder gemeinsam einBlockraster zu definieren – dazuwird jedes VOP-Farbbild entspre-chend seiner Form in sich nichtüberlappende Makroblöcke zerteilt.Dies ist anhand der rechteckigenVOP-Bildsequenz in Bild 3b darge-stellt und in Bild 5 für ein will-kürlich geformtes VOP-Bild. JederMakroblock besteht dabei aus 6 Blö-cken, die jeweils Pixel aus den Lu-minanz und Chrominanzbändernenthalten – vier Luminanz Blöcke(Y1, Y2, Y3, Y4) und zwei Chro-minanz Blöcke (U, V), jeder Blockmit 8 ×8 Pixeln. Das grundlegendeMPEG-4 Codierschema für die Co-dierung der Y- und U-Blöcke ist, wiebereits bei den MPEG und ITU-TStandards, ein hybrides blockbasier-tes MC/DCT Verfahren – bestehendaus Verfahren zur bewegungskom-pensierten Prädiktion (motion com-pensated: MC) von Pixeln zwischenVOP-Bildern und der Codierungder Prädiktionsfehler mit Hilfe derDiskreten Cosinus Transformation(DCT). Die Struktur dieses Codier-systems ist in Bild 4 skizziert. Einbereits codiertes VOP-Bild N – 1 istin einem VOP-Bildpeicher (framestore: FS) am Coder und Deco-der gespeichert. Eine bewegungs-kompensierte Prädiktion (MC) wird

276


Bild 4 Blockdiagramm eines MPEG-4 Coders und Decoders. Das grundlegende Codierschema ist wiebei den MPEG-1 und MPEG-2 Standards blockorientiert und basiert auf dem erfolgreichen Konzeptder hybriden MC/DCT Codierphilosophie.

Bild 5 Beispiel eines konturadaptiven MPEG-4 Makroblock-Gitters für das AKIYO Vordergrund VOP2Bild. Ein VOP-Fenster, mit einer Größe, die einem Vielfachen von 16 × 16 Pixeln entspricht, umrandetdas Vordergrundobjekt und spezifiziert so konturadaptiv ein Makroblock-Gitter. Das VOP-Fensterberührt am oberen Ende und an der linken Seite die Kontur des Vordergrundobjektes. Ein Shift-Parameter beschreibt die Position des VOP-Fensters innerhalb eines „Referenzfensters“.

wahlweise auf Block oder Makro-blöcken durchgeführt – nur einBewegungsvektor wird für je einenBlock oder Makroblock codiert [1].Der Prädiktionsfehler wird berech-net, indem jeder Pixelwert in einemBlock oder Makroblock in VOP-BildN von seinem bewegungsverschobe-nen Äquivalent im vorherigen VOP-Bild N – 1 subtrahiert wird. Zur Co-dierung wird dann eine 8 ×8 DCTauf jeden Block angewandt. DieTransformations-Koeffizienten wer-den daraufhin quantisiert (Q) undmit einer Lauflängen- und Entro-

piecodierung (VLC) codiert. EinVOP-Buffer (VB) wird genutzt, umggf. eine konstante Bitrate am Co-derausgang zu generieren. Für dieRegelung der Bildqualität in Abhän-gigkeit der zur Verfügung stehendenDatenrate kann die Quantisierungs-schrittweite (sz) der DCT-Koeffizi-enten genutzt werden. Der VOP-Decoder nutzt im Wesentlichen denumgekehrten Prozess zur Rekon-struktion der VOP-Bilder.

Im Allgemeinen können die zucodierenden VOP-Bilder willkürlichgeformt sein und die Form und Po-

sition der VOP-Bilder kann sich,in Bezug auf ein über eine VOP-Sequenz konstantes Referenzfenster,von Bild zu Bild ändern. MPEG-4 nutzt hierfür ein Konzept fürdie blockbasierte Codierung, das aufder Definition eines VOP-Bildfens-ters variabler Form und Positionbasiert. Dieses VOP-Bildfenster istin Bild 5 skizziert und bewegt sichinnerhalb des oben angesprochenenReferenzfensters konstanter Größeund Position. Alle zu codierendenVOP’s einer Bildsequenz sind inBezug auf dieses Referenzfenster de-finiert. Für jedes VOP-Bild wirddann mit Hilfe des entsprechen-den VOP-Fensters in einem ers-ten Schritt die Konturinformationdes VOP’s codiert. Sowohl Coderwie auch Decoder verfügen dannüber die VOP-Konturinformation,die in einem nächsten Schritt fürdie Definition eines konturange-passten Makroblock-Gitters genutztwird. In weiteren Schritten wird nurBewegungs- und Texturinformationfür die Blöcke und Makroblöcke co-diert, die entweder ganz innerhalbeines VOP’s liegen, oder aber dieKontur eines VOP’s schneiden.

Konturcodierung. Grundsätzlich wirddie Konturcodierung in MPEG-4 alsAlpha-Plane Codierung bezeichnet.MPEG-4 hat zwei Arten der Alpha-Plane Codierung vorgesehen: die bi-näre Alpha-Plane Codierung (sieheauch Bild 2b) und die Codierungvon grauwertigen Alpha-Planes. Fürdie binäre Alpha-Plane Codierungist ein hierarchischer blockbasierterQuadtree Algorithmus beschrieben.Für die Alpha-Plane Grauwertcodie-rung, mit der neben der Konturin-formation auch noch Transparenzzwischen VOP’s zum Decoder si-gnalisiert wird, ist ein QuadtreeAlgorithmus mit Grauwert-Vektor-quantisierung spezifiziert.

Bewegungsschätzung und Bewe-gungskompensation. Für die block-oder makroblockbasierte Bewe-gungsschätzung und Bewegungs-kompensation zwischen aufeinander

277

Schwerpunktthema

Bild 6 Block-MatchingVerfahren für die Be-wegungsschätzung undBewegungskompensation.

folgenden VOP-Bildern unterschied-licher Form und Position wird daskonturadaptive Makroblock-Gittergenutzt. Ein Standard Block-Mat-ching Verfahren [1], wie in Bild 6dargestellt, wird benutzt, um füreinen Block oder Makroblock inVOP-Bild N einen Bewegungsvektor(mv) aus einem VOP-Bild N – 1 zuschätzen. MPEG-4 unterstützt dieCodierung von einem Bewegungs-vektor pro 8 ×8 Block oder 16 ×16Makroblock sowie eine blocküber-lappende Bewegungskompensation,wie sie etwa für den ITU H.263Standard spezifiziert wurde [7].

Für die Bewegungsschätzungund -kompensation von Pixeln inBlöcken an Konturgrenzen mussdas oben beschriebene Verfahrenjedoch angepasst werden. Hierfürwird bei MPEG-4 Video ein Pi-xel-Extrapolationsverfahren für dasVOP-Referenzbild N – 1 genutzt.Ziel der Pixel-Extrapolation ist es,

Bild 7 Pixel-Extrapolationaußerhalb der VOP-Grenzen für die Be-wegungsschätzung,Bewegungskompensationund die DCT-Codierung derTextur.

im VOP Referenzbild N – 1 für dieBewegungsschätzung und die Be-wegungskompensation Pixelwerteaußerhalb der Kontur des ursprüng-lichen VOP-Bildes zu erzeugen,um so eine umfassende Vektorsu-che zu ermöglichen. In Bild 7 istdas Ergebnis einer solchen Pixel-Extrapolation dargestellt. Für dieVektorsuche werden dann allerdingsim zu codierenden VOP-Bild N nurdie Pixel genutzt, die innerhalb desVOP-Bildes liegen.

Texturcodierung. Wie angedeutetwerden sowohl in I-VOP’s wie auchdie Prädiktionsfehler in P- oder B-VOP’s mit Hilfe der 8 × 8 DCTcodiert. Wiederum ist für die Blöckean den VOP-Grenzen eine Anpas-sung notwendig, da innerhalb einesBlockes die Werte der Pixel, dienicht zum VOP-Bild gehören, nichtdefiniert sind. Auch hier werdendie Werte dieser Pixel mit Hilfe

der oben beschriebenen Pixel-Ex-trapolation berechnet, um so dieCodiereffizienz zu erhöhen (sieheBild 7).

Multiplexen der Kontur-, Bewegungs-und Texturinformation. Nahezu alleTools (z. B. die DCT, blockbasierteBewegungskompensation, etc.), wiesie in den H.263 und MPEG-1 bzw.MPEG-2/Main Profile Standards de-finiert sind, werden von MPEG-4unterstützt. Die komprimierten Al-pha-Plane-Informationen sowie dieBewegungsvektoren und DCT-Bitswerden für jeden VOP in eineneigenen VOP-Layer Bitstrom multi-plext, indem zunächst die Kontur-information übertragen/gespeichertwird, gefolgt von Bewegungsvektor-Bits und DCT-Bits ausgehend vonMPEG und H.263 Makroblockdefi-nitionen.

3 Zusammenfassung undAusblick

In diesem Aufsatz wurden die Zieleund die grundlegende Struktur desobjektbasierten Teils des MPEG-4 Video Codierstandards aufge-zeigt. Es ist allerdings hervorzu-heben, dass MPEG-4 alle bereitsbekannten Funktionalitäten existie-render Videokompressionsverfahren(MPEG-1, MPEG-2, H.263, etc.)mit großer Effizienz ermöglicht.Dies betrifft hauptsächlich die Kom-pression von herkömmlichen Vi-deosequenzen mit hoher Quali-tät und die hohe Robustheit vonMPEG-4 bei Übertragungsfehlernin mobilen Netzen.

Die neue, inhaltsbezogene Funk-tionalität unterscheidet MPEG-4von allen bisher bekannten Vi-deokompressionsverfahren. DieseFunktionalität ermöglicht eine Viel-zahl von innovativen Produktenin einem breiten Spektrum vonAnwendungsfeldern. Aus der Viel-zahl möglicher Anwendungen istin Bild 8 eine immersive Video-Te-lekommunikationsanwendung mitMPEG-4 Codierung skizziert. Zieldieser MPEG-4 Anwendung ist einehohe Telepräsenz bei Videokonfe-renzsystemen. Teilnehmer an un-

278


Bild 8 Immersive Mixed-Reality Videokonferenz mit MPEG-4 (Quelle: Heinrich Hertz Institut, FhG,Berlin). Die Teilnehmer der Konferenz an unterschiedlichen Standorten sind segmentiert, mit MPEG-4 VOP’s übertragen und in einer virtuellen Konferenzumgebung zusammengemischt. Es entstehtder Eindruck einer normalen Tisch-Konferenzsituation mit gegenüber herkömmlicher Videokonferenzerhöhter Telepräsenz.

terschiedlichen Standorten werdenseparat aufgenommen. Die jeweiligePerson im Videobild wird mittelsBild-Segmentierungsverfahren vomHintergrund getrennt und separatals MPEG-4 Objekt (VOP) zu denanderen Teilnehmern übertragen.Bei den Empfängern werden alleso als MPEG-4 Objekte übertrage-nen Personen in ein gemeinsamesBild mit neuem Hintergrund zu-sammengemischt. Hierdurch lässtsich – bei entsprechender Übertra-gungsqualität – eine normale Tisch-Konferenzsituation mit hoher Tele-präsenz erzeugen.

Interessant ist die Frage, ob sicheine solche inhaltsbezogene Funk-tionalität mit MPEG-4 bit-effizientunterstützen lässt. Tatsächlich zei-gen die Feldversuche in MPEG, dassBilder entweder objektbasiert odernormal wie bei MPEG-2 mit etwagleicher Bitrate und Qualität über-tragen werden können. Durch dieUnterstützung der objektbasiertenKodierung ist also kein Verlust anCodiereffizienz zu beobachten. Al-lerdings steigt die Komplexität vonCoder- und Decoderhardware bzw.-Software.

Eine solche MPEG-4 Teleprä-senzanwendung ist im Rahmen ver-schiedener europäischer und natio-

naler Projekte bereits implementiertworden, in Deutschland am Hein-rich-Hertz-Institut der FraunhoferGesellschaft in Berlin. Andere Pro-jekte konzentrieren sich auf Inter-netanwendungen wie z. B. im EUProjekt SoNG (portals of Next Ge-neration, www.song-opi.org). Hierwurde ein virtueller Telefonshopentwickelt, bei dem ein Verkäuferper segmentiertem Video den Kun-den beim Kaufen beraten kann.

Zum heutigen Zeitpunkt ha-ben sich aber noch keine nen-nenswerten Produkte am Marktetabliert, die die neuen, inhalts-basierten MPEG-4 Funktionalitätennutzen. Die nächsten 5 Jahre wer-den zeigen, ob sich diese Funk-tionalitäten am Markt durchset-zen können. Dagegen haben sichdie herkömmlichen Funktionalitä-ten von MPEG-4 (Kompression undFehlerrobustheit) bereits in vielenAnwendungen bewährt, wie bei-spielsweise in Camcordern und invielen Mobiltelefonen. Insbesondereim Internet ist MPEG-4 ein be-liebtes Format für die Übertra-gung und Speicherung von digita-lem Video, getrieben von Produk-ten wie z. B. DIVX und XviD unddas open Source Projekt MPEG4IP(http://mpeg4ip.sourceforge.net).

Literatur[1] T. Sikora, L Chiariglione: „The MPEG-4

Video Standard and its Potential for

Future Multimedia Applications“, IEEE

ISCAS Conference, Honkong, June

1997.

[2] T. Sikora: "„MPEG Digital Video

Coding Standards“, IEEE Signal

Processing Magazine, Vol. 14, No. 5,

September 1997.

[3] R. Schäfer, T. Sikora: „Digital video

coding standards and their role in

video communications“, Proc. of the

IEEE, Vol. 83, No. 6, June 1995.

[4] T. Sikora: „The MPEG-4 Video

Standard Verification Model“, IEEE

Trans. Circuits and System for Video

Technology, Vol. 7, No. 1, February

1997.

[5] D. J. Le Gall: „The MPEG Video

Compression Algorithm“, Signal

Processing: Image Communication,

Vol. 4, No. 4, 1992.

[6] ISO/IEC 13818-2 MPEG-2 Video

Coding Standard: „Information

Technology – Generic Coding of

Moving Pictures and Associated Audio

Information: Video“, March 1995.

[7] ITU-T Group for Line Transmission

of Non-Telephone Signals: „Draft Re-

commendation H.263 – Video Coding

for Low Bitrate Communication“,

December 1995.

[8] F. Pereira, T. Ebrahimi: „The MPEG-4

Book“, Prentice Hall, 2002.

Prof. Dr.-Ing. Thomas Sikora lehrt an der

Technischen Universität Berlin im Fachgebiet

Nachrichtenübertragung. Er beschäftigt

sich seit etwa 15 Jahren mit Aspekten der

Videokodierung. Als Chairman der ISO-

MPEG-Gruppe war er verantwortlich für die

Entwicklung des MPEG-4 Standards.

Adresse: Technische Universität Berlin,

Institut für Telekommunikationssysteme,

Fachgebiet Nachrichtenübertragung, Sekr.

EN 1, Einsteinufer 17, D-10587 Berlin.

E-Mail: [email protected]

279

MPEG-4 objektbasierte Videocodierung · beitungsprogramme, andere Video-sequenzen, etc.) zu...

Documents

Transcript of MPEG-4 objektbasierte Videocodierung · beitungsprogramme, andere Video-sequenzen, etc.) zu...