Data Hazards - userpages.uni-koblenz.deunikorn/lehre/gdra/ss16/04 Prozessor (VL18).pdf ·...

Data‐Hazards

Grundlagen der Rechnerarchitektur ‐ Prozessor 74

Motivation

Ist die Pipelined‐Ausführung immer ohne Probleme möglich?

Beispiel:sub $2, $1, $3and $12, $2, $5or $13, $6, $2add $14, $2, $2sw $15, 100($2)

Also, alle vier nachfolgenden Instruktionen hängen von der sub‐Instruktion ab.

Annahme:$2 speichert 10 vor der sub‐Instruktion.$2 speichert ‐20 nach der sub‐Instruktion.

Betrachten wir die Pipeline:

sub $2, $1, $3and $12, $2, $5or $13, $6, $2add $14, $2, $2sw $15, 100($2)

Problem Rückwärtsabhängigkeiten

Instr.‐Zeile

Sollte aus $2 lesen

Liest aus $2

Data‐Hazard

Bildquelle: David A. Patterson und John L. Hennessy, „Computer Organization and Design“, Fourth Edition, 2012

Behandeln von Data‐Hazards mittels Forwarding

Grundlagen der Rechnerarchitektur ‐ Prozessor 77Bildquelle: David A. Patterson und John L. Hennessy, „Computer Organization and Design“, Fourth Edition, 2012

Allgemeine Lösung mittels Forwarding‐Unit

EX/MEM.Rd

MEM/WB.Rd

Implementation der Forwarding‐Unit

Bemerkungen

Die Bestimmung von ForwardB erfolgt analog. (Übung)

Das Ganze muss noch als Wahrheitstabelle aufgeschrieben und dann als kombinatorische Schaltung realisiert werden.

Wie sieht die Wahrheitstabelle von ForwardA nach voriger hergeleiteter Vorschrift aus? (Übung) [Tipp: um Platz zu sparen sollte man möglichst viele „don‘t cares“ verwenden.]

Auch mit der Erweiterung auf ForwardB ist die Implementation der Forwarding‐Unit noch unvollständig. Was passiert z.B. für:lw $2, 0($1)sw $2, 4($1)

Erweiterung: Forwarding muss z.B. auch in die MEM‐Stufe eingebaut werden. (Übung)

Nicht auflösbare Data‐Hazards

Nicht jeder Data‐Hazard lässt sich durch Forwardingauflösen. Beispiel: Zugriff auf vorher gelesenes Register.

Pipeline‐Stall als Lösung

Allgemeine Lösung mittels Hazard‐Detection‐Unit

Implementation der Hazard‐Detection‐Unit

Quiz: Vermeiden von Pipeline‐Stalls

lw $t1, 0($t0)

lw $t2, 4($t0)

add $t3, $t1, $t2

sw $t3, 12($t0)

lw $t4, 8($t0)

add $t5, $t1, $t4

sw $t5, 16($t0)

Wo findet ein Pipe‐line‐Stall statt? Bitte ankreuzen.

Bitte Befehle umorganisie‐ren, sodass alle Stalls vermieden werden.

Anzahl Taktzyklen mit Stalls?Anzahl Taktzyklen ohne Stalls?

Control‐Hazards

Branch‐Not‐Taken‐Strategie und Pipeline‐Flush

Flush = Verwerfe Instruktionen in der Pipeline. Hier: Setze IF/ID‐, ID/EX‐ und EX/MEM‐Register auf 0.

Reduktion des Branch‐Delays• Adressberechnung kann schon in der

ID‐Stufe stattfinden• beq und bne erfordert lediglich ein

32‐Bit‐XOR und ein 32‐Bit‐OR– Dazu braucht man keine ALU– Also auch in der ID‐Stufe realisierbar

• Damit ist der Sprung schon in der ID‐Stufe entschieden

Beispiel: für $1 und $3:

Reduktion des Branch‐Delays

• Konsequenz– Branch‐Delay ist damit ein Instruktions‐Zyklus– Wir brauchen lediglich ein Flush‐IF/ID‐Register

Reduktion des Branch‐Delays• Achtung!

– Forwarding aus späteren Stufen macht die Sache kompliziert.

– Kann Pipeline‐Stall aufgrund von Data‐Hazards erforderlich machen.

• z.B. ein Zyklus, wenn ALU‐Ergebnis in den Vergleich einfließt

• z.B. zwei Zyklen, wenn Vergleichsoperator einen Schritt vorher aus dem Speicher geladen wurde

– Betrachten wir aber hier nicht genauer.

Dynamic‐Branch‐Prediction‐Strategie

Unterer Teil der Adresse

Branch hat stattgefunden

0x00 10x04 00x08 1...0xf8 00xfc 0

Branch‐Prediction‐Buffer

0x400000 : lw $1, 0($4)0x400004 : beq $1, $0, 400x400008 : add $1, $1, $10x40000c : ......

...0x40c004 : bne $3, $4, 120...

Vorhersagegenauigkeit

Annahme unendlich langer Loop, der immer 9 mal und dann einmal nicht durchlaufen wird. Was ist die Vorhersagegenauigkeit der vorher beschriebenen Branch‐Prediction?

Lässt sich das verbessern?

loop: ......bne $1,$2,loop...j loop

N‐Bit‐Vorhersage am Beispiel 2‐Bit

Vorhersagegenauigkeit

Annahme unendlich langer Loop, der immer 9 mal und dann einmal nicht durchlaufen wird. Was ist die Vorhersagegenauigkeit der vorher beschriebenen 2‐Bit‐Branch‐Prediction?

loop: ......bne $1,$2,loop...j loop

Branch‐Delay‐Slot‐Idee

loop: ......bne $1,$2,loop<instruktion><instruktion>

• Wird immer ausgeführt.• Instruktion muss aber unabhängig vonder Branch‐Entscheidung sein.

• Das muss der Compiler entscheiden.• Im Zweifelsfall: nop passt immer.

Data Hazards - userpages.uni-koblenz.deunikorn/lehre/gdra/ss16/04 Prozessor (VL18).pdf ·...

Documents

Transcript of Data Hazards - userpages.uni-koblenz.deunikorn/lehre/gdra/ss16/04 Prozessor (VL18).pdf ·...

Testometric winTest Analysis - mpk-ludwig.de · Prozessor 1.86 Ghz oder mehr, AMD Opteron, AMD Athlon 64 oder AMD Athlon XP Prozessor Festplatte 3GB Festplattenspeicher Monitor Monitorauösung

Grundlagen der Rechnerarchitektur - userpages.uni-koblenz.deunikorn/lehre/gdra/ss19/04 Prozessor... · • x = 4*x (lässt sich durch ein Links‐Shiftvon 2 erreichen) • nächste

Arithmetik, Register und Speicherzugriffunikorn/lehre/gdra/ss14/03 MIPS... · Zusammenfassung der behandelten Instruktionen Grundlagen der Rechnerarchitektur ‐Assembler 31 Instruktion

Sun Integrated Lights Out Manager 2.0 – Ergänzungshandbuch … · 2010. 12. 29. · Service-Prozessor (SP) für die Sun SPARC® Enterprise T5140 und T5240 Server. Der Service-Prozessor

Allgemeine Lösung mittels Hazard Detectionunikorn/lehre/gdra/ss14/04... · Control‐Hazards Grundlagen der Rechnerarchitektur ‐Prozessor 87 Bildquelle: David A. Patterson und

Übersicht - userpages.uni-koblenz.deunikorn/lehre/drako/ws16/03... · Übersicht Motivation für spezielle MAC-Verfahren Mehrfachzugriff durch Raummultiplex (SDMA) Mehrfachzugriff

Grundlagen der Rechnerarchitekturunikorn/lehre/gdra/ss... · 2015. 4. 21. · Grundlagen der Rechnerarchitektur ‐Einführung 22. Grundbegriffe Integrierte Schaltungen Grundlagen

Programmierpraktikum 3D Computer Grafik · Computer Grafik GLSL. 3D Programmierpraktikum SS07 Agenda Rendering Pipeline Prozessoren: • Vertex Prozessor • Fragment Prozessor OpenGL

05 Zellulare Netze (leer) - userpages.uni-koblenz.deunikorn/lehre/drako/ws15/05... · • Beispiel UMTS WS 2012/2013 Drahtlose Kommunikation ‐Zellulare Netze 2. ... Call‐Drop

Referenzhandbuch für Tascam iXR, Revision D · 8 Hardware-Anforderungen Windows-kompatibler Computer mit USB-2.0-Anschluss 8 Prozessor/Taktrate Dual-Core-Prozessor, 2 GHz oder schneller

Grundlagen der Rechnerarchitektur - userpages.uni-koblenz.deunikorn/lehre/gdra/ss12/01%20Einf%81... · Übersicht dieses Vorlesungsabschnitts • Grundbegriffe • Performance •

Datenblatt Terra Mobile 1749 - Windows 8.1 - Intel Core i3 Prozessor

Beispiel heutiger Mikrocontoller und Mikroprozessorenunikorn/lehre/gdra/ss14/01%20Einf%81... · Beispiel heutiger Mikrocontoller und Mikroprozessoren Grundlagen der Rechnerarchitektur

Darstellung von Instruktionen - userpages.uni-koblenz.deunikorn/lehre/gdra/ss12/03 MIPS... · MIPS unterstützt mit einem separaten FPU‐Coprozessor Gleitkommaarithmetik auf Zahlen

Der Transmeta Crusoe Prozessor - TU Bergakademie Freiberg · 1.2 Der Crusoe Prozessor Die Entwicklung des Crusoe Prozessors begann zeitgleich mit der Firmengründung. Über die gesamte

05 Zellulare Netze - userpages.uni-koblenz.deunikorn/lehre/drako/ws12/05... · • Beispiel UMTS WS 2012/2013 Drahtlose Kommunikation ‐Zellulare Netze 2. ... Call‐Drop –Bei

Sequenz durchläuft der Prozessor immer und

2 Assembler Programmierung · 2016-12-08 · MMIX Architektur MMIX = Prozessor Modell – Entwickelt für Forschung & Lehre – Kein real existierender Prozessor •keine “Legacy-Effekte”

Open Source Prozessor Leon2

Beispiel für eine R Typ Instruktion - userpagesunikorn/lehre/gdra/ss12/05 Prozessor (VL12).pdf · Bildquelle: David A. Patterson und John L. Hennessy, „Computer OrganizationandDesign“,