Parallelität auf Instruktionsebene Übersetzung von künstlichen Sprachen Präsentation: Christoph...

Parallelität auf InstruktionsebeneÜbersetzung von künstlichen SprachenPräsentation: Christoph Heitmann03.06.2009

MotivationModerne Rechnerarchitekturen nutzen die parallele Befehlsausführung für eine beschleunigte/effiziente Programmausführung

• Very Long Instruction Word• Mehrere Befehle zu einem

VLIW-Befehl zusammengefasst

• Statische Planung

Super-skalar

• Mehrere parallelarbeitende Funktionseinheiten

• Dynamische Planung

Parallelität auf Instruktionsebene

Agenda

Grundlagen

Lokale Codeplanung

Globale Codeplanung Softwarepipelining

Agenda

Grundlagen

Lokale Codeplanung

Phasenstruktur eines CompilersDie Optimierung für Befehlsparallelität erfolgt auf Basis eines Zwischencodes und für eine spezifische Architektur

Grundlagen

Frontend

Lexikalische Analyse

Syntaktische Analyse

Semantische Analyse

Zwischencode-Generierung

Optimierung

Optimierung für Parallelität auf

Instruktionsebeneu.a.

Backend

Zielcode-Generierung

Darstellungsformen (1)Das Programmbeispiel berechnet den größten gemeinsamen Teiler zweier Zahlen nach Euklid

Grundlagen

// Gegeben: Zwei Ganzzahlen a > 0, b > 0, // Variable z für Zwischenberechnungen 1 while (b > 0) | Block A 2 { 3 if (a < b) | Block B 4 { 5 z = a; | Block C 6 a = b; | Block C 7 b = z; | Block C 8 } 9 z = a - b; | Block D 10 a = b; | Block D 11 b = z; | Block D 12 }

// Gegeben: Zwei Ganzzahlen a > 0, b > 0 // r0 = Speicherdresse von a, // r1 = Speicherdresse von b, r2 = 0 I1 S: LD r3, r0 I2 LD r4, r1 I3 CJMP r3 < r4, T

|--- Ende Grundblock A ---| I4 SUB r5, r3 – r4 I6 ST r0, r4 I7 ST r1, r5 I8 CJMP r4 > r2, S

|--- Ende Grundblock B ---| |--- Ende von Programmteil S ---| I9 T: LD r5, r0 I10 ST r0, r4 I11 ST r1, r5 I12 CJMP S |--- Ende Grundblock C ---| |--- Ende von Programmteil T ---|

Ursprungsprogramm (C#): Code für abstrakte Maschine:

Generiere Zwischencode

Abstrakte Maschine

RISC-ähnliche Architektur Lade- und Speicherbefehl (LD bzw. ST) Addition und Subtraktion (ADD bzw. SUB) Bedingter Sprungbefehl (CJMP) 1x Rechenwerk (ALU) 1x Speicherkommunikationseinheit (MEM)

Darstellungsformen (2)Im Programm befindliche Steuerungs- und Datenabhängigkeiten lassen sich mit Hilfe von Graphen veranschaulichen

Grundlagen

Kontrollflussgraph (und Verfeinerung)

Datenabhängigkeitsgraph

SUB r 5 , r 3 – r 4

ST r 0 , r 4

ST r 1 , r 5

CJMP S

B ALU MEM

SUB r5, r3 – r4

ST r0, r4

ST r1, r5

CJMP r4 > r2, S

echte Datenabängigkeiten Ressourcenreservierungstabelle Kantenbeschriftung mit Verzögerungszeiten

Steuerungsabhängigkeiten Beschreibt Programmfluss mit Bedingungsprüfungen Programmverzweigungen mit wahr (T) und unwahr (F)

Agenda

Grundlagen

Lokale Codeplanung

Agenda

Grundlagen

Lokale Codeplanung

Planung eines Grundblockes (1)Die lokale Codeplanung ergibt einen Ablaufplan für einen Grundblock, und stellt somit den ersten Schritt einer Optimierung

Takt Maschinencode ALU MEM 1 SUB r5, r3 – r4 ST r0, r4 2 - ST r1, r5 3 CJMP r4 > r2, S -

Datenabhängigkeitsgraph: Optimiertes Maschinenprogramm:

Listenplanung

Grundsatz der Listenplanung

„… berechnet der Algorithmus den frühesten Zeitpunkt, zu dem ein Knoten ausgeführt werden kann, gemäß seinen Datenabhängigkeiten zu den vorher verplanten Knoten.“Alfred V. Aho, Monica S. Lam, Ravi Sethi, Jeffrey D. Ullman

SUB r 5 , r 3 – r 4

ST r 0 , r 4

ST r 1 , r 5

CJMP S

B ALU MEM

Planung eines Grundblockes (2)Nicht alle Grundblöcke bieten die Möglichkeit einer parallelen Befehlsausführung

Ablaufpläne optimierter Grundblöcke Auswertung

Grundblock A: Keine parallele Ausführung Grundblock B: Benötigt 3 statt 4 Takte Grundblock C: Keine parallele Ausführung

FazitDie Listenplanung im Rahmen der lokalen Ablaufplanung erfasst nur ein geringes Parallelitätspotential.

Takt Maschinencode ALU MEM 1 - LD r3, r0 2 - LD r4, r1 3 - - 4 CJMP r3 < r4, T -

Takt Maschinencode ALU MEM

1 SUB r5, r3 – r4 ST r0, r4 2 - ST r1, r5 3 CJMP r4 > r2, S -

Takt Maschinencode ALU MEM

1 - LD r5, r0 2 - - 3 - ST r0, r4 4 - ST r1, r5 5 CJMP r3 < r4, T -

Agenda

Grundlagen

Lokale Codeplanung

Agenda

Grundlagen

Lokale Codeplanung

Planung mehrerer Grundblöcke / Bereiche (1)Im Rahmen der Bereichsplanung erfolgt eine Herausarbeitung von Parallelität über Grundblockgrenzen hinaus

Dominanzbeziehungen und Parallelitätskonzepte Bereichsplanung

berücksichtigt Dominanzbeziehungen einfache Codeverschiebung (aufwärts) spekulative Ausführung erfolgt an Hand eines azyklischen Graphen

Ein Bereich ist eine Menge von Grundblöcken und im Programmablauf nur durch einen Eingangspunkt erreichbar. (Definition in Anlehnung an David Bernstein, Michael Rodeh)

Dominanzbeziehungen zwischen Grundblöcken

• Dominanz

• Postdominanz

Konzepte

• einfache Codeverschiebung• aufwärts• abwärts

• Spekulative Ausführung

• Duplikation

• Kontrolläquivalenz

Planung mehrerer Grundblöcke / Bereiche (2)Die Bereichsplanung erfolgt von innen nach außen und ermöglicht die parallele Ausführung von Befehlen verschiedener

Grundblöcke

Global geplanter Ablaufplan

Zeile Block Maschinencode ALU MEM 1 A S: - LD r3, r0 2 A - LD r4, r1 3 A - - 4 A CJMP r3 < r4, T LD r5, r0 5 A - - 6 B SUB r5, r3 – r4 ST r0, r4 7 B CJMP r4 > r2, S ST r1, r5 8 C T: - ST r0, r4 9 C CJMP r3 < r4, T ST r1, r5

Auswertung

ursprünglich: 11 Zeilen / max. 17 Takte jetzt: 9 Zeilen / max. 9 Takte

Der Grad der parallelen Ausführung lässt sich mit Hilfe der Bereichsplanung steigern. Jedoch ist das Parallelitäts-potential auf Grund der azyklischen Optimierung von Schleifen begrenzt.

Agenda

Grundlagen

Lokale Codeplanung

Agenda

Grundlagen

Lokale Codeplanung

SchleifentypenZu beachtende Abhängigkeiten zwischen einzelnen Iterationen einer Schleife existieren in sogenannten Do-Across-Schleifen

Do-Schleife

z.B. Operationen auf Vektoren einzelne Schleifendurchläufe unabhängig einfacher Fall

// Gegeben: Array a mit Ganzzahlen, // Indexvariable i mit 0 initialisiert // Anzahl Elemente n des Arrays a, Konstante c 1 while (i < n) 1 { 3 a[i] = a[i] + c; 4 i++; 5 }

Do-Across-Schleife

// Gegeben: Array a mit Ganzzahlen, // Indexvariable i mit 0 initialisiert // Anzahl Elemente n des Arrays a, // Variable prod mit 1 initialisiert 1 while (i < n) 2 { 3 prod = prod * a[i]; 4 i++; 5 }

z.B. Berechnungen mit Zwischenprodukten Abhängigkeiten zwischen den Iterationen komplex

Abwickeln von SchleifenBestehen keine Datenabhängigkeiten zwischen den Durchläufen, kann die Schleife theoretisch vollständig abgewickelt

werden

Viermal abgewickelte Do-Schleife

sehr hohes Parallelitätspotential drastischer Codezuwachs Kompromiss notwendig

I1 LD++ // Iteration 1 I2 ADD , LD++ // Iterationen 1 + 2 I3 ST++ , ADD // Iterationen 1 + 2 I4 ST++ // Iteration 2 I5 LD++ // Iteration 3 I6 ADD , LD++ // Iterationen 3 + 4 I7 ST++ , ADD // Iterationen 3 + 4 I8 ST++ // Iteration 4 |----------- Ende der Abwicklung ------------| I9 S: LD++ // Iterationen 5 bis n I10 ADD I11 ST++ , CJMP-- S

LösungSoftwarepipeling: Ermöglicht die geforderte Ausführungs-beschleunigung mit einem geringen Zuwachs bzgl. des Codeumfangs.

Umsetzung der Do-Schleife in einer SoftwarepipelineEine Pipeline bietet i.d.R. schon für wenige Iterationen einen hohen, mit der Durchlaufzahl wachsenden Geschwindigkeitsvorteil.

Bestandteile

Prolog

• „Füllen“ der Pipeline

• einmalig ausgeführt Stationärer Zustand („Kernel“)

• Mini-Schleife

• maximale Parallelität

• n-fach ausgeführt Epilog

• „Leeren“ der Pipeline

• einmalig ausgeführt

Softwarepipeline

Best. Maschinencode ALU MEM JMP 1 (P) LD++ 2 ADD LD++ 3 (SZ) S: - ADD LD++ 4 ST++ - ADD CJMP-- S 5 (E) ST++ - 6 ST++

SZ bearbeitet n – 2 Iterationen SZ benötigt 2 (statt 3) Takte je Iteration Schleife muss mindestens 3x durchlaufen werden Konfliktprüfung: Modulare Ressourcenreservierungstabelle

Umsetzung der Do-Across-Schleife (1)Die Umsetzung einer Do-Across-Schleife findet auf Basis eines zyklischen Abhängigkeitsgraphen statt.

Graphenerweiterung Planungsverfahren

Planung eines zyklischen Graphen Minimierung des Einleitungsintervalls ist nur NP-lösbar Vereinfachung durch Anwendung einer Heuristik

• Ober- und Untergrenze des Einleitungsintervalls

• liefert Ergebnisse nahe am Optimum Sukzessive Planung von SCCs (Strong Connected Components) Berechnung der längsten einfachen Pfade

• Zyklen haben keine Auswirkung

• garantiert Einhaltung aller Abhängigkeiten Rückverfolgung (engl. „Backtracking“)

0 , 1 0 , 1

ST , CJMP -- S 0 , 1

ALU MEM JMP

0 , 1 0 , 1

Umsetzung der Do-Across-Schleife (2)Im Beispiel ergibt sich ein Einleitungsintervall s von 3 Takten

Verfahrensanwendung Softwarepipeline

s N Intervall Start-

zeitpunkt

Modulare Ressourcen-reservierung 3 A ሾ0,∞ሿ 0 ALU MEM JMP ‼

3 B ሾ1,∞ሿ 1 3 C ሾ2,2ሿ 2

3 D ሾ3,3ሿ 3

s N Intervall Startzeit-

Modulare Ressourcen-reservierung 3 A ሾ0,∞ሿ 0 ALU MEM JMP

3 B ሾ1,∞ሿ 2 3 C ሾ3,3ሿ 3

3 D ሾ4,4ሿ 4

Rück-verfolgung

Zeile Pipeline Maschinencode ALU MEM JMP 1 Prolog LD++ 2 - 3 SZ S: LD 4 MULT LD++ 5 ST - CJMP-- S 6 Epilog LD 7 MULT 8 ST

Umsetzung der Do-Across-Schleife (3)Eine geringe Codeverlängerung ist in Betracht des Geschwindigkeitszuwachses zu vernachlässigen

Auswertung

Codeverlängerung

• 8 Zeilen / Takte

• ursprünglich 5 Takte Gesamtausführungszeit

• Pipeline: 5 + 3n Takte

• ursprüngliche Schleife: 4 Takte

• Vorteil schon ab 6 Durchläufen Planung schon im 2. Versuch erfolgreich

FazitSoftwarepipeling: Ermöglicht die geforderte Ausführungs-beschleunigung mit einem geringen Zuwachs bzgl. des Codeumfangs.

Hierarchische ReduktionDurch die hierarchische Reduktion wird das Konzept des Softwarepipelinings universeller anwendbar

Bisher

Schleifen mit nur einem Grundblock keine Verzweigungen innerhalb der Schleife umgebender Code nicht betrachtet

Konzept der hierarchischen Reduktion

ähnlich der Bereichsplanung (globale Codeplanung) Behandlung von Kontrollstrukturen

„if-then-else“-Konstrukte Zurückführen auf elementares Objekt Objekt wird wie Grundblock behandelt

reduzierte Objekte können überlappt werden Glassbox statt Blackbox (Bereichsplanung) Abhängigkeiten als Maximum beider Äste keine Ressourcenüberbeanspruchung

Überlappung: Prolog/Epilog und andere Instruktionen Objekte erhalten Ressourcenverbrauch des SZ SZ darf nicht überlappt werden

Zusammenfassung

für ein (Grundblock-)Element geringes Parallelitätspotential einfach zu planen Grundlage für globale Planung

Zusammenfassung

Bereichsplanung mittleres Parallelitätspotential Dominanzbeziehungen

Zusammenfassung

Bereichsplanung mittleres Parallelitätspotential Dominanzbeziehungen

Schleifen Kompromiss

• Codelänge

• Geschwindigkeit hohes Parallelitätspotential

Vielen Dank für die Aufmerksamkeit!

Parallelität auf Instruktionsebene Übersetzung von künstlichen Sprachen Präsentation: Christoph...

Documents

Transcript of Parallelität auf Instruktionsebene Übersetzung von künstlichen Sprachen Präsentation: Christoph...

Optimierungsszenarien im Versicherungsvertrieb Presenter: Date: Jürgen Rintz Geschäftsführer InterServ Engineering GmbH Carsten Heitmann Business Development.

Modulhandbuch - hs-regensburg.de · 03.06.2009 Welsch Zusammenfassung von Modul z.B. IN1a+b zu IN1: 21.05.2010 Welsch Ergänzung aller Modulbeschreibungen mit Übungsanteil und grundlegender

Forschungszentrum Karlsruhe Technik und Umwelt Clemens Düpmeier, 27.03.2015- 1 - Parallelität, Synchronisation.

Betriebssystembau: 07-Koroutinen und Fäden · Betriebssystembau: 07 – Koroutinen und Fäden 4 Agenda Motivation: Quasi-Parallelität Einige Versuche Grundbegriffe Routine und Kontrollfluss

Magnetisierungskurven eines Ferrits1 - muenchuwe.com · Betreuer: Heitmann Fortgeschrittenen–Praktikum am II. Physikalischen Institut Magnetisierungskurven eines Ferrits1 Oliver

ElektrosmogElektrosmog Ein Referat von Leonard Harnack und Fabian Heitmann Gefahr oder Hirngespinst?

GENERATOREN - leroy-somer.com · Generator und Dieselmotor sind sorgfältig so auszurichten, dass zwischen den Kupplungshälften die Abweichung von Zentrierung und Parallelität nicht

Formale Grundlagen der Informatik 1 Kapitel 13 0.2cm NP ... · P und NP NP-Vollst andigkeit Formale Grundlagen der Informatik 1 Kapitel 13 NP-Vollst andigkeit Frank Heitmann heitmann@informatik.uni-hamburg.de

Geschichte der Lusitanistik in Deutschlandpublications.iai.spk-berlin.de/servlets/MCRFileNodeServlet/Document... · Studium comparativ und historisch betreibt» (Heitmann 1988: 8).

IFS Zertifikat 04-06-2008 - cdn.lifepr.deZertifikat_04-06-2008.pdf · 04.06.2008 03.06.2009 22.04.2009 PRO Auditor Günter Landmann dUrch Durch die DAP Deutsches Akkreditierungssystem

Parallelität / Dependencies Patterns / Anti Patterns ...mage0003/cloudcomputing/Cloud_2.pdf · Scaling •Parallelität / Dependencies •Patterns / Anti Patterns •Algorithmen

Konzepte von Betriebssystem-Komponenten Semaphore · Michael Gunselmann Semaphore 4 Problemfeld Parallelität Zwischen Lesen und Reagieren auf Variablenwert kann sich dieser ändern

Markenwäsche - Heitmann Mode Nienburg · PDF filegeringelt oder uni, reine Baumwolle, je €9,99* €6,99 2er Pack Pants ... Capri-Bündchenhose reine Baumwolle €25,99* €15,99.

18 - Rüdiger Ratsch-Heitmann, Andreas Urs Sommer - Register Zu Den Bänden 17-30

Mittwoch, 8. Juli 2015 - hamburg.de...Marcel Steinhäuser . Bilata Suleiman . Henning Sämisch . Christoph de Vries . Dieter Grützmacher . Sebastian Kothanikkel . Linda Heitmann .

Joseph haydn · allegro con brio Fazil say · aM 03.06.2009 ... · 1822 – zu diesem Zeitpunkt war Beethoven bereits vollständig ertaubt – gehört sie zum esote-rischen Spätwerk

Iterative Verfahren zum Lösen von linearen Gleichungssystemen · Gauß-Seidel-Verfahren Für dünnbesetzte Matrizen Einschränkung der Parallelität durch Datenabhängigkeiten Nur

Forschungszentrum Karlsruhe Technik und Umwelt Clemens Düpmeier, 11.02.2014- 1 - Parallelität, Synchronisation.

Die digitale Verfügbarkeit von Quellen und For- Hendrik ... · Clemens Heitmann / Wito Böhmak (SI) Das Teilprojekt „Digitales Archivportal zur Geschichte der Sorben 1918–1945“

Reactive Programming - Beuth Hochschulepublic.beuth-hochschule.de/~knabe/fach/scala/mb... · Akka, Ratpack, Reactor, RxJava, Vert.x, DB-Treiber Wie Parallelität bewältigen? Beuth-Hochschule