Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung...

Post on 09-Sep-2019

7 views 0 download

Transcript of Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung...

Manycores: Hardware und Low-Level Programmierung

Florian Sattler

Universitat Passau

18. Juni 2014

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Ubersicht

Einfuhrung

Neue Architekturen

Programmierung

Supercomputing

Fazit

2 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Top 500

3 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Motivation fur Exascale Computing

Es gibt bereits Anwendungen wo 50 petaFLOPS an Rechenleistung umGroßenordnungen nicht reichen.

Fusionsenergie Simulation/Auswertung

Erdmodelle

Viele Forschungsbereiche benotigen Exascale Performance oder hoher

4 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Motivation fur Exascale Computing

Es gibt bereits Anwendungen wo 50 petaFLOPS an Rechenleistung umGroßenordnungen nicht reichen.

Fusionsenergie Simulation/Auswertung

Erdmodelle

Viele Forschungsbereiche benotigen Exascale Performance oder hoher

4 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Motivation fur Exascale Computing

Es gibt bereits Anwendungen wo 50 petaFLOPS an Rechenleistung umGroßenordnungen nicht reichen.

Fusionsenergie Simulation/Auswertung

Erdmodelle

Viele Forschungsbereiche benotigen Exascale Performance oder hoher

4 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Motivation fur Exascale Computing

Es gibt bereits Anwendungen wo 50 petaFLOPS an Rechenleistung umGroßenordnungen nicht reichen.

Fusionsenergie Simulation/Auswertung

Erdmodelle

Viele Forschungsbereiche benotigen Exascale Performance oder hoher

4 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Motivation fur Exascale Computing

Es gibt bereits Anwendungen wo 50 petaFLOPS an Rechenleistung umGroßenordnungen nicht reichen.

Fusionsenergie Simulation/Auswertung

Erdmodelle

Viele Forschungsbereiche benotigen Exascale Performance oder hoher

4 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Motivation fur Exascale Computing

Es gibt bereits Anwendungen wo 50 petaFLOPS an Rechenleistung umGroßenordnungen nicht reichen.

Fusionsenergie Simulation/Auswertung

Erdmodelle

Viele Forschungsbereiche benotigen Exascale Performance oder hoher

4 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Tianhe-2

Tianhe-2

Peakperformance 54,9 petaFLOPS

Linpack Performance 33,8 petaFLOPS

Energieverbrauch 17,8MW/24MW

Exascale Supercomputer

Peakperformance 10 exaFLOPS

Energieverbrauch 3294MW/4416MW

Energieproblem!

5 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Tianhe-2

Tianhe-2

Peakperformance 54,9 petaFLOPS

Linpack Performance 33,8 petaFLOPS

Energieverbrauch 17,8MW/24MW

Exascale Supercomputer

Peakperformance 10 exaFLOPS

Energieverbrauch 3294MW/4416MW

Energieproblem!

5 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Tianhe-2

Tianhe-2

Peakperformance 54,9 petaFLOPS

Linpack Performance 33,8 petaFLOPS

Energieverbrauch 17,8MW/24MW

Exascale Supercomputer

Peakperformance 10 exaFLOPS

Energieverbrauch 3294MW/4416MW

Energieproblem!

5 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Tianhe-2

Tianhe-2

Peakperformance 54,9 petaFLOPS

Linpack Performance 33,8 petaFLOPS

Energieverbrauch 17,8MW/24MW

Exascale Supercomputer

Peakperformance 10 exaFLOPS

Energieverbrauch 3294MW/4416MW

Energieproblem!

5 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Tianhe-2

Tianhe-2

Peakperformance 54,9 petaFLOPS

Linpack Performance 33,8 petaFLOPS

Energieverbrauch 17,8MW/24MW

Exascale Supercomputer

Peakperformance 10 exaFLOPS

Energieverbrauch 3294MW/4416MW

Energieproblem!

5 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Tianhe-2

Tianhe-2

Peakperformance 54,9 petaFLOPS

Linpack Performance 33,8 petaFLOPS

Energieverbrauch 17,8MW/24MW

Exascale Supercomputer

Peakperformance 10 exaFLOPS

Energieverbrauch 3294MW/4416MW

Energieproblem!

5 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Tianhe-2

Tianhe-2

Peakperformance 54,9 petaFLOPS

Linpack Performance 33,8 petaFLOPS

Energieverbrauch 17,8MW/24MW

Exascale Supercomputer

Peakperformance 10 exaFLOPS

Energieverbrauch 3294MW/4416MW

Energieproblem!

5 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Tianhe-2

Tianhe-2

Peakperformance 54,9 petaFLOPS

Linpack Performance 33,8 petaFLOPS

Energieverbrauch 17,8MW/24MW

Exascale Supercomputer

Peakperformance 10 exaFLOPS

Energieverbrauch 3294MW/4416MW

Energieproblem!

5 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Tianhe-2

Tianhe-2

Peakperformance 54,9 petaFLOPS

Linpack Performance 33,8 petaFLOPS

Energieverbrauch 17,8MW/24MW

Exascale Supercomputer

Peakperformance 10 exaFLOPS

Energieverbrauch 3294MW/4416MW

Energieproblem!

5 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Tianhe-2

Tianhe-2

Peakperformance 54,9 petaFLOPS

Linpack Performance 33,8 petaFLOPS

Energieverbrauch 17,8MW/24MW

Exascale Supercomputer

Peakperformance 10 exaFLOPS

Energieverbrauch 3294MW/4416MW

Energieproblem!

5 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Energieproblem

Verbrauch von 4416MW

Atomkraftwerk Isar 2 produziert 1410MW

3 Atomkraftwerke

ein Raspberry Pi verbraucht nur 3.5 Watt

Losung?

6 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Energieproblem

Verbrauch von 4416MW

Atomkraftwerk Isar 2 produziert 1410MW

3 Atomkraftwerke

ein Raspberry Pi verbraucht nur 3.5 Watt

Losung?

6 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Energieproblem

Verbrauch von 4416MW

Atomkraftwerk Isar 2 produziert 1410MW

3 Atomkraftwerke

ein Raspberry Pi verbraucht nur 3.5 Watt

Losung?

6 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Energieproblem

Verbrauch von 4416MW

Atomkraftwerk Isar 2 produziert 1410MW

3 Atomkraftwerke

ein Raspberry Pi verbraucht nur 3.5 Watt

Losung?

6 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Energieproblem

Verbrauch von 4416MW

Atomkraftwerk Isar 2 produziert 1410MW

3 Atomkraftwerke

ein Raspberry Pi verbraucht nur 3.5 Watt

Losung?

6 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Energieproblem

Verbrauch von 4416MW

Atomkraftwerk Isar 2 produziert 1410MW

3 Atomkraftwerke

ein Raspberry Pi verbraucht nur 3.5 Watt

Losung?

6 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Energieproblem

Verbrauch von 4416MW

Atomkraftwerk Isar 2 produziert 1410MW

3 Atomkraftwerke

ein Raspberry Pi verbraucht nur 3.5 Watt

Losung?

6 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Irdis Pi

64 Pi’s

64×700 MHz ARMv6

16GB RAM

224 Watt

7 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Irdis Pi

64 Pi’s

64×700 MHz ARMv6

16GB RAM

224 Watt

7 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Irdis Pi

64 Pi’s

64×700 MHz ARMv6

16GB RAM

224 Watt

7 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Irdis Pi

64 Pi’s

64×700 MHz ARMv6

16GB RAM

224 Watt

7 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Irdis Pi

64 Pi’s

64×700 MHz ARMv6

16GB RAM

224 Watt

7 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Benchmark mit verschiedenen Problemgroßen

8 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Vor-/Nachteile

Vorteilegeringe Anschaffungskosten

Nachteilewenig Leistungwenig Speicherstark Bandbreiten beschranktGPU kein openCL

keine Losung!

9 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Vor-/Nachteile

Vorteilegeringe Anschaffungskosten

Nachteilewenig Leistungwenig Speicherstark Bandbreiten beschranktGPU kein openCL

keine Losung!

9 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Vor-/Nachteile

Vorteilegeringe Anschaffungskosten

Nachteilewenig Leistungwenig Speicherstark Bandbreiten beschranktGPU kein openCL

keine Losung!

9 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Vor-/Nachteile

Vorteilegeringe Anschaffungskosten

Nachteilewenig Leistungwenig Speicherstark Bandbreiten beschranktGPU kein openCL

keine Losung!

9 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Vor-/Nachteile

Vorteilegeringe Anschaffungskosten

Nachteilewenig Leistungwenig Speicherstark Bandbreiten beschranktGPU kein openCL

keine Losung!

9 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Vor-/Nachteile

Vorteilegeringe Anschaffungskosten

Nachteilewenig Leistungwenig Speicherstark Bandbreiten beschranktGPU kein openCL

keine Losung!

9 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Vor-/Nachteile

Vorteilegeringe Anschaffungskosten

Nachteilewenig Leistungwenig Speicherstark Bandbreiten beschranktGPU kein openCL

keine Losung!

9 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Vor-/Nachteile

Vorteilegeringe Anschaffungskosten

Nachteilewenig Leistungwenig Speicherstark Bandbreiten beschranktGPU kein openCL

keine Losung!

9 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Vor-/Nachteile

Vorteilegeringe Anschaffungskosten

Nachteilewenig Leistungwenig Speicherstark Bandbreiten beschranktGPU kein openCL

keine Losung!

9 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Vor-/Nachteile

Vorteilegeringe Anschaffungskosten

Nachteilewenig Leistungwenig Speicherstark Bandbreiten beschranktGPU kein openCL

keine Losung!

9 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Neue Architekturen

MPPAMulti-Purpose Processor Array

von Kalray

Hauptsitz Paris

Grundung 2008

Board: MPPA256

Epiphany

von Adapteva

Hauptsitz Lexington (Boston)

Grundung 2008

Board: Parallella

10 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Neue Architekturen

MPPAMulti-Purpose Processor Array

von Kalray

Hauptsitz Paris

Grundung 2008

Board: MPPA256

Epiphany

von Adapteva

Hauptsitz Lexington (Boston)

Grundung 2008

Board: Parallella

10 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Neue Architekturen

MPPAMulti-Purpose Processor Array

von Kalray

Hauptsitz Paris

Grundung 2008

Board: MPPA256

Epiphany

von Adapteva

Hauptsitz Lexington (Boston)

Grundung 2008

Board: Parallella

10 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Neue Architekturen

MPPAMulti-Purpose Processor Array

von Kalray

Hauptsitz Paris

Grundung 2008

Board: MPPA256

Epiphany

von Adapteva

Hauptsitz Lexington (Boston)

Grundung 2008

Board: Parallella

10 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Neue Architekturen

MPPAMulti-Purpose Processor Array

von Kalray

Hauptsitz Paris

Grundung 2008

Board: MPPA256

Epiphany

von Adapteva

Hauptsitz Lexington (Boston)

Grundung 2008

Board: Parallella

10 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Neue Architekturen

MPPAMulti-Purpose Processor Array

von Kalray

Hauptsitz Paris

Grundung 2008

Board: MPPA256

Epiphany

von Adapteva

Hauptsitz Lexington (Boston)

Grundung 2008

Board: Parallella

10 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Neue Architekturen

MPPAMulti-Purpose Processor Array

von Kalray

Hauptsitz Paris

Grundung 2008

Board: MPPA256

Epiphany

von Adapteva

Hauptsitz Lexington (Boston)

Grundung 2008

Board: Parallella

10 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Neue Architekturen

MPPAMulti-Purpose Processor Array

von Kalray

Hauptsitz Paris

Grundung 2008

Board: MPPA256

Epiphany

von Adapteva

Hauptsitz Lexington (Boston)

Grundung 2008

Board: Parallella

10 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Neue Architekturen

MPPAMulti-Purpose Processor Array

von Kalray

Hauptsitz Paris

Grundung 2008

Board: MPPA256

Epiphany

von Adapteva

Hauptsitz Lexington (Boston)

Grundung 2008

Board: Parallella

10 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Neue Architekturen

MPPAMulti-Purpose Processor Array

von Kalray

Hauptsitz Paris

Grundung 2008

Board: MPPA256

Epiphany

von Adapteva

Hauptsitz Lexington (Boston)

Grundung 2008

Board: Parallella

10 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Neue Architekturen

MPPAMulti-Purpose Processor Array

von Kalray

Hauptsitz Paris

Grundung 2008

Board: MPPA256

Epiphany

von Adapteva

Hauptsitz Lexington (Boston)

Grundung 2008

Board: Parallella

10 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

MPPA

I/O Subsysteme

16 Cluster

16 Rechenkerne

1 Systemkern

11 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

MPPA

I/O Subsysteme

16 Cluster

16 Rechenkerne

1 Systemkern

11 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

MPPA

I/O Subsysteme

16 Cluster

16 Rechenkerne

1 Systemkern

11 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

MPPA

I/O Subsysteme

16 Cluster

16 Rechenkerne

1 Systemkern

11 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

MPPA

I/O Subsysteme

16 Cluster

16 Rechenkerne

1 Systemkern

11 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

MPPA

verschiedene Varianten mit MPPA 64/256/1024

Energieverbrauch 1,8/5/7 Watt

50 GFLOPS/Watt

Steigerung auf 100 GFLOPS/Watt

12 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

MPPA

verschiedene Varianten mit MPPA 64/256/1024

Energieverbrauch 1,8/5/7 Watt

50 GFLOPS/Watt

Steigerung auf 100 GFLOPS/Watt

12 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

MPPA

verschiedene Varianten mit MPPA 64/256/1024

Energieverbrauch 1,8/5/7 Watt

50 GFLOPS/Watt

Steigerung auf 100 GFLOPS/Watt

12 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

MPPA

verschiedene Varianten mit MPPA 64/256/1024

Energieverbrauch 1,8/5/7 Watt

50 GFLOPS/Watt

Steigerung auf 100 GFLOPS/Watt

12 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

MPPA

verschiedene Varianten mit MPPA 64/256/1024

Energieverbrauch 1,8/5/7 Watt

50 GFLOPS/Watt

Steigerung auf 100 GFLOPS/Watt

12 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Epiphany

eingesetzt in Parallella

Chip mit 16/64 Kernen

50 GFLOPS/Watt

13 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Epiphany

eingesetzt in Parallella

Chip mit 16/64 Kernen

50 GFLOPS/Watt

13 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Epiphany

eingesetzt in Parallella

Chip mit 16/64 Kernen

50 GFLOPS/Watt

13 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Epiphany

eingesetzt in Parallella

Chip mit 16/64 Kernen

50 GFLOPS/Watt

13 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Memory

230 32-bit words

4096 Kerne

6-bit column ID

6-bit row ID

off-Chip RAM

14 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Memory

230 32-bit words

4096 Kerne

6-bit column ID

6-bit row ID

off-Chip RAM

14 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Memory

230 32-bit words

4096 Kerne

6-bit column ID

6-bit row ID

off-Chip RAM

14 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Memory

230 32-bit words

4096 Kerne

6-bit column ID

6-bit row ID

off-Chip RAM

14 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Memory

230 32-bit words

4096 Kerne

6-bit column ID

6-bit row ID

off-Chip RAM

14 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Memory

230 32-bit words

4096 Kerne

6-bit column ID

6-bit row ID

off-Chip RAM

14 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

eMesh Netzwerk

cMesh (On-chip write)

Schreibvorgangezwischen Mesh Knoten

8-Byte/Cycle in jedeRichtung

gesamt Durchsatz 62.5GB/s

rMesh (Read request)

Leseoperationen

1 alle 8 Cycle in jedeRichtung

15 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

eMesh Netzwerk

cMesh (On-chip write)

Schreibvorgangezwischen Mesh Knoten

8-Byte/Cycle in jedeRichtung

gesamt Durchsatz 62.5GB/s

rMesh (Read request)

Leseoperationen

1 alle 8 Cycle in jedeRichtung

15 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

eMesh Netzwerk

cMesh (On-chip write)

Schreibvorgangezwischen Mesh Knoten

8-Byte/Cycle in jedeRichtung

gesamt Durchsatz 62.5GB/s

rMesh (Read request)

Leseoperationen

1 alle 8 Cycle in jedeRichtung

15 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

eMesh Netzwerk

cMesh (On-chip write)

Schreibvorgangezwischen Mesh Knoten

8-Byte/Cycle in jedeRichtung

gesamt Durchsatz 62.5GB/s

rMesh (Read request)

Leseoperationen

1 alle 8 Cycle in jedeRichtung

15 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

eMesh Netzwerk

cMesh (On-chip write)

Schreibvorgangezwischen Mesh Knoten

8-Byte/Cycle in jedeRichtung

gesamt Durchsatz 62.5GB/s

rMesh (Read request)

Leseoperationen

1 alle 8 Cycle in jedeRichtung

15 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

eMesh Netzwerk

cMesh (On-chip write)

Schreibvorgangezwischen Mesh Knoten

8-Byte/Cycle in jedeRichtung

gesamt Durchsatz 62.5GB/s

rMesh (Read request)

Leseoperationen

1 alle 8 Cycle in jedeRichtung

15 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

eMesh Netzwerk

cMesh (On-chip write)

Schreibvorgangezwischen Mesh Knoten

8-Byte/Cycle in jedeRichtung

gesamt Durchsatz 62.5GB/s

rMesh (Read request)

Leseoperationen

1 alle 8 Cycle in jedeRichtung

15 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

eMesh Netzwerk

cMesh (On-chip write)

Schreibvorgangezwischen Mesh Knoten

8-Byte/Cycle in jedeRichtung

gesamt Durchsatz 62.5GB/s

rMesh (Read request)

Leseoperationen

1 alle 8 Cycle in jedeRichtung

15 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

eMesh Netzwerk

cMesh (On-chip write)

Schreibvorgangezwischen Mesh Knoten

8-Byte/Cycle in jedeRichtung

gesamt Durchsatz 62.5GB/s

rMesh (Read request)

Leseoperationen

1 alle 8 Cycle in jedeRichtung

15 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

eMesh Netzwerk

xMesh (Off-chip write)

off-Chip Schreiben

weitere Boards

off-Chip I/O 8GB/sec

Sud-Nord / Ost-WestAufteilung

16 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

eMesh Netzwerk

xMesh (Off-chip write)

off-Chip Schreiben

weitere Boards

off-Chip I/O 8GB/sec

Sud-Nord / Ost-WestAufteilung

16 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

eMesh Netzwerk

xMesh (Off-chip write)

off-Chip Schreiben

weitere Boards

off-Chip I/O 8GB/sec

Sud-Nord / Ost-WestAufteilung

16 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

eMesh Netzwerk

xMesh (Off-chip write)

off-Chip Schreiben

weitere Boards

off-Chip I/O 8GB/sec

Sud-Nord / Ost-WestAufteilung

16 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

eMesh Netzwerk

xMesh (Off-chip write)

off-Chip Schreiben

weitere Boards

off-Chip I/O 8GB/sec

Sud-Nord / Ost-WestAufteilung

16 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

eMesh Routing

1 Kern 32,32 schicktLeseanfrage

2 Vergleich: Spalten ID3 Vergleich: Zeilen ID4 Kern 39,39 sendet Daten

mit cMesh/xMesh

17 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

eMesh Routing

1 Kern 32,32 schicktLeseanfrage

2 Vergleich: Spalten ID3 Vergleich: Zeilen ID4 Kern 39,39 sendet Daten

mit cMesh/xMesh

17 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

eMesh Routing

1 Kern 32,32 schicktLeseanfrage

2 Vergleich: Spalten ID3 Vergleich: Zeilen ID4 Kern 39,39 sendet Daten

mit cMesh/xMesh

17 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

eMesh Routing

1 Kern 32,32 schicktLeseanfrage

2 Vergleich: Spalten ID3 Vergleich: Zeilen ID4 Kern 39,39 sendet Daten

mit cMesh/xMesh

17 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

eMesh Routing

1 Kern 32,32 schicktLeseanfrage

2 Vergleich: Spalten ID3 Vergleich: Zeilen ID4 Kern 39,39 sendet Daten

mit cMesh/xMesh

17 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Programmierung MPPA

SigmaC

IDE basierend auf Eclipse

Compiler

GDB integriert in Eclipse

Spezielle Analyse Tools

Debug Board

18 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Programmierung MPPA

SigmaC

IDE basierend auf Eclipse

Compiler

GDB integriert in Eclipse

Spezielle Analyse Tools

Debug Board

18 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Programmierung MPPA

SigmaC

IDE basierend auf Eclipse

Compiler

GDB integriert in Eclipse

Spezielle Analyse Tools

Debug Board

18 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Programmierung MPPA

SigmaC

IDE basierend auf Eclipse

Compiler

GDB integriert in Eclipse

Spezielle Analyse Tools

Debug Board

18 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Programmierung MPPA

SigmaC

IDE basierend auf Eclipse

Compiler

GDB integriert in Eclipse

Spezielle Analyse Tools

Debug Board

18 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Programmierung MPPA

SigmaC

IDE basierend auf Eclipse

Compiler

GDB integriert in Eclipse

Spezielle Analyse Tools

Debug Board

18 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Programmierung MPPA

SigmaC

IDE basierend auf Eclipse

Compiler

GDB integriert in Eclipse

Spezielle Analyse Tools

Debug Board

18 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Programmierung Parallella

C Syntax

IDE basierend auf Eclipse

E-GCC

E-GDB

Simulator

19 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Programmierung Parallella

C Syntax

IDE basierend auf Eclipse

E-GCC

E-GDB

Simulator

19 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Programmierung Parallella

C Syntax

IDE basierend auf Eclipse

E-GCC

E-GDB

Simulator

19 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Programmierung Parallella

C Syntax

IDE basierend auf Eclipse

E-GCC

E-GDB

Simulator

19 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Programmierung Parallella

C Syntax

IDE basierend auf Eclipse

E-GCC

E-GDB

Simulator

19 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Programmierung Parallella

C Syntax

IDE basierend auf Eclipse

E-GCC

E-GDB

Simulator

19 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Matrixmultiplikation

Cij =N−1∑k=0

(Aik Bkj)

Blocked by row and column

Matrix A wird nach untenverschoben

Matrix B verschoben nach rechts

90% Peakperformance

20 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Matrixmultiplikation

Cij =N−1∑k=0

(Aik Bkj)

Blocked by row and column

Matrix A wird nach untenverschoben

Matrix B verschoben nach rechts

90% Peakperformance

20 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Matrixmultiplikation

Cij =N−1∑k=0

(Aik Bkj)

Blocked by row and column

Matrix A wird nach untenverschoben

Matrix B verschoben nach rechts

90% Peakperformance

20 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Matrixmultiplikation

Cij =N−1∑k=0

(Aik Bkj)

Blocked by row and column

Matrix A wird nach untenverschoben

Matrix B verschoben nach rechts

90% Peakperformance

20 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Matrixmultiplikation

Cij =N−1∑k=0

(Aik Bkj)

Blocked by row and column

Matrix A wird nach untenverschoben

Matrix B verschoben nach rechts

90% Peakperformance

20 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Matrixmultiplikation

Cij =N−1∑k=0

(Aik Bkj)

Blocked by row and column

Matrix A wird nach untenverschoben

Matrix B verschoben nach rechts

90% Peakperformance

20 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Matrixmultiplikation Code

1 f o r ( kc = 0; kc < Nside ; kc ++) {2 matmac(me.bankA[me.pingpong]3 , me.bankB[me.pingpong], me.bankC, Score);45 / / Swap A banks h o r i z o n t a l l y6 src = me. bankA [me. pingpong ] ;7 dst = me. tg tA [me. pingpong ] ;8 i f ( kc < ( Nside − 1 ) )9 datacopy(&dmadesc[1], dst, src);

1011 / / Swap B banks v e r t i c a l l y12 src = me. bankB [me. pingpong ] ;13 dst = me. tg tB [me. pingpong ] ;14 i f ( kc < ( Nside − 1 ) )15 datacopy(&dmadesc[1], dst, src);1617 me.pingpong = 1 - me.pingpong;1819 / / Sync wi th a l l o ther cores20 ebarrier(barriers, tgtbars);21 }

21 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Matrixmultiplikation Code

1 f o r ( kc = 0; kc < Nside ; kc ++) {2 matmac(me.bankA[me.pingpong]3 , me.bankB[me.pingpong], me.bankC, Score);45 / / Swap A banks h o r i z o n t a l l y6 src = me. bankA [me. pingpong ] ;7 dst = me. tg tA [me. pingpong ] ;8 i f ( kc < ( Nside − 1 ) )9 datacopy(&dmadesc[1], dst, src);

1011 / / Swap B banks v e r t i c a l l y12 src = me. bankB [me. pingpong ] ;13 dst = me. tg tB [me. pingpong ] ;14 i f ( kc < ( Nside − 1 ) )15 datacopy(&dmadesc[1], dst, src);1617 me.pingpong = 1 - me.pingpong;1819 / / Sync wi th a l l o ther cores20 ebarrier(barriers, tgtbars);21 }

21 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Matrixmultiplikation Code

1 f o r ( kc = 0; kc < Nside ; kc ++) {2 matmac(me.bankA[me.pingpong]3 , me.bankB[me.pingpong], me.bankC, Score);45 / / Swap A banks h o r i z o n t a l l y6 src = me. bankA [me. pingpong ] ;7 dst = me. tg tA [me. pingpong ] ;8 i f ( kc < ( Nside − 1 ) )9 datacopy(&dmadesc[1], dst, src);

1011 / / Swap B banks v e r t i c a l l y12 src = me. bankB [me. pingpong ] ;13 dst = me. tg tB [me. pingpong ] ;14 i f ( kc < ( Nside − 1 ) )15 datacopy(&dmadesc[1], dst, src);1617 me.pingpong = 1 - me.pingpong;1819 / / Sync wi th a l l o ther cores20 ebarrier(barriers, tgtbars);21 }

21 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Matrixmultiplikation Code

1 f o r ( kc = 0; kc < Nside ; kc ++) {2 matmac(me.bankA[me.pingpong]3 , me.bankB[me.pingpong], me.bankC, Score);45 / / Swap A banks h o r i z o n t a l l y6 src = me. bankA [me. pingpong ] ;7 dst = me. tg tA [me. pingpong ] ;8 i f ( kc < ( Nside − 1 ) )9 datacopy(&dmadesc[1], dst, src);

1011 / / Swap B banks v e r t i c a l l y12 src = me. bankB [me. pingpong ] ;13 dst = me. tg tB [me. pingpong ] ;14 i f ( kc < ( Nside − 1 ) )15 datacopy(&dmadesc[1], dst, src);1617 me.pingpong = 1 - me.pingpong;1819 / / Sync wi th a l l o ther cores20 ebarrier(barriers, tgtbars);21 }

21 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Matrixmultiplikation Code

1 f o r ( kc = 0; kc < Nside ; kc ++) {2 matmac(me.bankA[me.pingpong]3 , me.bankB[me.pingpong], me.bankC, Score);45 / / Swap A banks h o r i z o n t a l l y6 src = me. bankA [me. pingpong ] ;7 dst = me. tg tA [me. pingpong ] ;8 i f ( kc < ( Nside − 1 ) )9 datacopy(&dmadesc[1], dst, src);

1011 / / Swap B banks v e r t i c a l l y12 src = me. bankB [me. pingpong ] ;13 dst = me. tg tB [me. pingpong ] ;14 i f ( kc < ( Nside − 1 ) )15 datacopy(&dmadesc[1], dst, src);1617 me.pingpong = 1 - me.pingpong;1819 / / Sync wi th a l l o ther cores20 ebarrier(barriers, tgtbars);21 }

21 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Probleme

Struktur des eMesh Netzwerks

Unterschied zwischen xMesh und cMesh

einzelnes eMesh maximal 4096 Kerne

Initialkosten von MPI bei sehr vielen Kernen zu hoch

MPI zu schwer fur einzelne Kerne

22 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Probleme

Struktur des eMesh Netzwerks

Unterschied zwischen xMesh und cMesh

einzelnes eMesh maximal 4096 Kerne

Initialkosten von MPI bei sehr vielen Kernen zu hoch

MPI zu schwer fur einzelne Kerne

22 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Probleme

Struktur des eMesh Netzwerks

Unterschied zwischen xMesh und cMesh

einzelnes eMesh maximal 4096 Kerne

Initialkosten von MPI bei sehr vielen Kernen zu hoch

MPI zu schwer fur einzelne Kerne

22 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Probleme

Struktur des eMesh Netzwerks

Unterschied zwischen xMesh und cMesh

einzelnes eMesh maximal 4096 Kerne

Initialkosten von MPI bei sehr vielen Kernen zu hoch

MPI zu schwer fur einzelne Kerne

22 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Probleme

Struktur des eMesh Netzwerks

Unterschied zwischen xMesh und cMesh

einzelnes eMesh maximal 4096 Kerne

Initialkosten von MPI bei sehr vielen Kernen zu hoch

MPI zu schwer fur einzelne Kerne

22 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Probleme

Struktur des eMesh Netzwerks

Unterschied zwischen xMesh und cMesh

einzelnes eMesh maximal 4096 Kerne

Initialkosten von MPI bei sehr vielen Kernen zu hoch

MPI zu schwer fur einzelne Kerne

22 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Losungen

effiziente Integration von eMesh in libs/APIs

schlanke Version von MPI (MPI lite)

Zwei-Schichten-Modell mit MPI+SubProgramm

automatische Code Generierung

23 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Losungen

effiziente Integration von eMesh in libs/APIs

schlanke Version von MPI (MPI lite)

Zwei-Schichten-Modell mit MPI+SubProgramm

automatische Code Generierung

23 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Losungen

effiziente Integration von eMesh in libs/APIs

schlanke Version von MPI (MPI lite)

Zwei-Schichten-Modell mit MPI+SubProgramm

automatische Code Generierung

23 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Losungen

effiziente Integration von eMesh in libs/APIs

schlanke Version von MPI (MPI lite)

Zwei-Schichten-Modell mit MPI+SubProgramm

automatische Code Generierung

23 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Losungen

effiziente Integration von eMesh in libs/APIs

schlanke Version von MPI (MPI lite)

Zwei-Schichten-Modell mit MPI+SubProgramm

automatische Code Generierung

23 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Supercomputing mit den neuen Architekturen

Exascale Supercomputer

ahnlich zu Tianhe-2

10 exaFLOPS

3294MW

2’944’000 Rechenknoten

574’080’000 Kerne

bestehend aus Boards

10 exaFLOPS

200MW 6% (800MW 24%)

98 Millionen Boards

6’272’000’000 Kerne

24 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Supercomputing mit den neuen Architekturen

Exascale Supercomputer

ahnlich zu Tianhe-2

10 exaFLOPS

3294MW

2’944’000 Rechenknoten

574’080’000 Kerne

bestehend aus Boards

10 exaFLOPS

200MW 6% (800MW 24%)

98 Millionen Boards

6’272’000’000 Kerne

24 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Supercomputing mit den neuen Architekturen

Exascale Supercomputer

ahnlich zu Tianhe-2

10 exaFLOPS

3294MW

2’944’000 Rechenknoten

574’080’000 Kerne

bestehend aus Boards

10 exaFLOPS

200MW 6% (800MW 24%)

98 Millionen Boards

6’272’000’000 Kerne

24 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Supercomputing mit den neuen Architekturen

Exascale Supercomputer

ahnlich zu Tianhe-2

10 exaFLOPS

3294MW

2’944’000 Rechenknoten

574’080’000 Kerne

bestehend aus Boards

10 exaFLOPS

200MW 6% (800MW 24%)

98 Millionen Boards

6’272’000’000 Kerne

24 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Supercomputing mit den neuen Architekturen

Exascale Supercomputer

ahnlich zu Tianhe-2

10 exaFLOPS

3294MW

2’944’000 Rechenknoten

574’080’000 Kerne

bestehend aus Boards

10 exaFLOPS

200MW 6% (800MW 24%)

98 Millionen Boards

6’272’000’000 Kerne

24 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Supercomputing mit den neuen Architekturen

Exascale Supercomputer

ahnlich zu Tianhe-2

10 exaFLOPS

3294MW

2’944’000 Rechenknoten

574’080’000 Kerne

bestehend aus Boards

10 exaFLOPS

200MW 6% (800MW 24%)

98 Millionen Boards

6’272’000’000 Kerne

24 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Supercomputing mit den neuen Architekturen

Exascale Supercomputer

ahnlich zu Tianhe-2

10 exaFLOPS

3294MW

2’944’000 Rechenknoten

574’080’000 Kerne

bestehend aus Boards

10 exaFLOPS

200MW 6% (800MW 24%)

98 Millionen Boards

6’272’000’000 Kerne

24 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Supercomputing mit den neuen Architekturen

Exascale Supercomputer

ahnlich zu Tianhe-2

10 exaFLOPS

3294MW

2’944’000 Rechenknoten

574’080’000 Kerne

bestehend aus Boards

10 exaFLOPS

200MW 6% (800MW 24%)

98 Millionen Boards

6’272’000’000 Kerne

24 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Supercomputing mit den neuen Architekturen

Exascale Supercomputer

ahnlich zu Tianhe-2

10 exaFLOPS

3294MW

2’944’000 Rechenknoten

574’080’000 Kerne

bestehend aus Boards

10 exaFLOPS

200MW 6% (800MW 24%)

98 Millionen Boards

6’272’000’000 Kerne

24 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Supercomputing mit den neuen Architekturen

Exascale Supercomputer

ahnlich zu Tianhe-2

10 exaFLOPS

3294MW

2’944’000 Rechenknoten

574’080’000 Kerne

bestehend aus Boards

10 exaFLOPS

200MW 6% (800MW 24%)

98 Millionen Boards

6’272’000’000 Kerne

24 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Supercomputing mit den neuen ArchitekturenProbleme

Probleme

Platzverbrauch

Kuhlung

Wartung

25 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Supercomputing mit den neuen ArchitekturenProbleme

Probleme

Platzverbrauch

Kuhlung

Wartung

25 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Supercomputing mit den neuen ArchitekturenProbleme

Probleme

Platzverbrauch

Kuhlung

Wartung

25 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Supercomputing mit den neuen ArchitekturenProbleme

Probleme

Platzverbrauch

Kuhlung

Wartung

25 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Supercomputing mit den neuen ArchitekturenProbleme

Probleme

Platzverbrauch

Kuhlung

Wartung

25 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Supercomputing mit den neuen ArchitekturenProbleme

Probleme

Platzverbrauch

Kuhlung

Wartung

25 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Supercomputing mit den neuen ArchitekturenProbleme

Moglich Losung:

Konstruktion eine PCIe Karte ahnlich zu Xeon Phi

Board mit mehreren Chips

Wurfel mit mehreren Boards

26 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Supercomputing mit den neuen ArchitekturenProbleme

Moglich Losung:

Konstruktion eine PCIe Karte ahnlich zu Xeon Phi

Board mit mehreren Chips

Wurfel mit mehreren Boards

26 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Supercomputing mit den neuen ArchitekturenProbleme

Moglich Losung:

Konstruktion eine PCIe Karte ahnlich zu Xeon Phi

Board mit mehreren Chips

Wurfel mit mehreren Boards

26 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Supercomputing mit den neuen ArchitekturenProbleme

Moglich Losung:

Konstruktion eine PCIe Karte ahnlich zu Xeon Phi

Board mit mehreren Chips

Wurfel mit mehreren Boards

26 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Supercomputing mit den neuen ArchitekturenProbleme

Moglich Losung:

Konstruktion eine PCIe Karte ahnlich zu Xeon Phi

Board mit mehreren Chips

Wurfel mit mehreren Boards

26 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Energieeffizienz

Tianhe-2 1,9 GFLOPS/Watt

Piz Daint 3,1 GFLOPS/Watt

Xeon Phi 9 GFLOPS/Watt

Nvidia GT 630(GK208) 27,7 GFLOPS/Watt

Epiphany/MPPA 50 GFLOPS/Watt

Zukunft MPPA bis zu 100 GFLOPS/Watt

27 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Energieeffizienz

Tianhe-2 1,9 GFLOPS/Watt

Piz Daint 3,1 GFLOPS/Watt

Xeon Phi 9 GFLOPS/Watt

Nvidia GT 630(GK208) 27,7 GFLOPS/Watt

Epiphany/MPPA 50 GFLOPS/Watt

Zukunft MPPA bis zu 100 GFLOPS/Watt

27 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Energieeffizienz

Tianhe-2 1,9 GFLOPS/Watt

Piz Daint 3,1 GFLOPS/Watt

Xeon Phi 9 GFLOPS/Watt

Nvidia GT 630(GK208) 27,7 GFLOPS/Watt

Epiphany/MPPA 50 GFLOPS/Watt

Zukunft MPPA bis zu 100 GFLOPS/Watt

27 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Energieeffizienz

Tianhe-2 1,9 GFLOPS/Watt

Piz Daint 3,1 GFLOPS/Watt

Xeon Phi 9 GFLOPS/Watt

Nvidia GT 630(GK208) 27,7 GFLOPS/Watt

Epiphany/MPPA 50 GFLOPS/Watt

Zukunft MPPA bis zu 100 GFLOPS/Watt

27 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Energieeffizienz

Tianhe-2 1,9 GFLOPS/Watt

Piz Daint 3,1 GFLOPS/Watt

Xeon Phi 9 GFLOPS/Watt

Nvidia GT 630(GK208) 27,7 GFLOPS/Watt

Epiphany/MPPA 50 GFLOPS/Watt

Zukunft MPPA bis zu 100 GFLOPS/Watt

27 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Energieeffizienz

Tianhe-2 1,9 GFLOPS/Watt

Piz Daint 3,1 GFLOPS/Watt

Xeon Phi 9 GFLOPS/Watt

Nvidia GT 630(GK208) 27,7 GFLOPS/Watt

Epiphany/MPPA 50 GFLOPS/Watt

Zukunft MPPA bis zu 100 GFLOPS/Watt

27 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Fazit

Schritt in die richtige Richtung aber keine finale Losung

Hat:

gute Energieeffizienz

Braucht:

bessere Integration in Software Libraries

einfache Programmierkonzepte

Codegenerator

bessere Umsetzung fur Cluster

28 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Fazit

Schritt in die richtige Richtung aber keine finale Losung

Hat:

gute Energieeffizienz

Braucht:

bessere Integration in Software Libraries

einfache Programmierkonzepte

Codegenerator

bessere Umsetzung fur Cluster

28 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Fazit

Schritt in die richtige Richtung aber keine finale Losung

Hat:

gute Energieeffizienz

Braucht:

bessere Integration in Software Libraries

einfache Programmierkonzepte

Codegenerator

bessere Umsetzung fur Cluster

28 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Fazit

Schritt in die richtige Richtung aber keine finale Losung

Hat:

gute Energieeffizienz

Braucht:

bessere Integration in Software Libraries

einfache Programmierkonzepte

Codegenerator

bessere Umsetzung fur Cluster

28 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Fazit

Schritt in die richtige Richtung aber keine finale Losung

Hat:

gute Energieeffizienz

Braucht:

bessere Integration in Software Libraries

einfache Programmierkonzepte

Codegenerator

bessere Umsetzung fur Cluster

28 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Fazit

Schritt in die richtige Richtung aber keine finale Losung

Hat:

gute Energieeffizienz

Braucht:

bessere Integration in Software Libraries

einfache Programmierkonzepte

Codegenerator

bessere Umsetzung fur Cluster

28 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Fazit

Schritt in die richtige Richtung aber keine finale Losung

Hat:

gute Energieeffizienz

Braucht:

bessere Integration in Software Libraries

einfache Programmierkonzepte

Codegenerator

bessere Umsetzung fur Cluster

28 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Fazit

Schritt in die richtige Richtung aber keine finale Losung

Hat:

gute Energieeffizienz

Braucht:

bessere Integration in Software Libraries

einfache Programmierkonzepte

Codegenerator

bessere Umsetzung fur Cluster

28 / 29

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Fragen?

29 / 29