Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung...

163
Manycores: Hardware und Low-Level Programmierung Florian Sattler Universit ¨ at Passau 18. Juni 2014

Transcript of Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung...

Page 1: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Manycores: Hardware und Low-Level Programmierung

Florian Sattler

Universitat Passau

18. Juni 2014

Page 2: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Ubersicht

Einfuhrung

Neue Architekturen

Programmierung

Supercomputing

Fazit

2 / 29

Page 3: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Top 500

3 / 29

Page 4: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Motivation fur Exascale Computing

Es gibt bereits Anwendungen wo 50 petaFLOPS an Rechenleistung umGroßenordnungen nicht reichen.

Fusionsenergie Simulation/Auswertung

Erdmodelle

Viele Forschungsbereiche benotigen Exascale Performance oder hoher

4 / 29

Page 5: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Motivation fur Exascale Computing

Es gibt bereits Anwendungen wo 50 petaFLOPS an Rechenleistung umGroßenordnungen nicht reichen.

Fusionsenergie Simulation/Auswertung

Erdmodelle

Viele Forschungsbereiche benotigen Exascale Performance oder hoher

4 / 29

Page 6: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Motivation fur Exascale Computing

Es gibt bereits Anwendungen wo 50 petaFLOPS an Rechenleistung umGroßenordnungen nicht reichen.

Fusionsenergie Simulation/Auswertung

Erdmodelle

Viele Forschungsbereiche benotigen Exascale Performance oder hoher

4 / 29

Page 7: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Motivation fur Exascale Computing

Es gibt bereits Anwendungen wo 50 petaFLOPS an Rechenleistung umGroßenordnungen nicht reichen.

Fusionsenergie Simulation/Auswertung

Erdmodelle

Viele Forschungsbereiche benotigen Exascale Performance oder hoher

4 / 29

Page 8: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Motivation fur Exascale Computing

Es gibt bereits Anwendungen wo 50 petaFLOPS an Rechenleistung umGroßenordnungen nicht reichen.

Fusionsenergie Simulation/Auswertung

Erdmodelle

Viele Forschungsbereiche benotigen Exascale Performance oder hoher

4 / 29

Page 9: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Motivation fur Exascale Computing

Es gibt bereits Anwendungen wo 50 petaFLOPS an Rechenleistung umGroßenordnungen nicht reichen.

Fusionsenergie Simulation/Auswertung

Erdmodelle

Viele Forschungsbereiche benotigen Exascale Performance oder hoher

4 / 29

Page 10: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Tianhe-2

Tianhe-2

Peakperformance 54,9 petaFLOPS

Linpack Performance 33,8 petaFLOPS

Energieverbrauch 17,8MW/24MW

Exascale Supercomputer

Peakperformance 10 exaFLOPS

Energieverbrauch 3294MW/4416MW

Energieproblem!

5 / 29

Page 11: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Tianhe-2

Tianhe-2

Peakperformance 54,9 petaFLOPS

Linpack Performance 33,8 petaFLOPS

Energieverbrauch 17,8MW/24MW

Exascale Supercomputer

Peakperformance 10 exaFLOPS

Energieverbrauch 3294MW/4416MW

Energieproblem!

5 / 29

Page 12: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Tianhe-2

Tianhe-2

Peakperformance 54,9 petaFLOPS

Linpack Performance 33,8 petaFLOPS

Energieverbrauch 17,8MW/24MW

Exascale Supercomputer

Peakperformance 10 exaFLOPS

Energieverbrauch 3294MW/4416MW

Energieproblem!

5 / 29

Page 13: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Tianhe-2

Tianhe-2

Peakperformance 54,9 petaFLOPS

Linpack Performance 33,8 petaFLOPS

Energieverbrauch 17,8MW/24MW

Exascale Supercomputer

Peakperformance 10 exaFLOPS

Energieverbrauch 3294MW/4416MW

Energieproblem!

5 / 29

Page 14: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Tianhe-2

Tianhe-2

Peakperformance 54,9 petaFLOPS

Linpack Performance 33,8 petaFLOPS

Energieverbrauch 17,8MW/24MW

Exascale Supercomputer

Peakperformance 10 exaFLOPS

Energieverbrauch 3294MW/4416MW

Energieproblem!

5 / 29

Page 15: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Tianhe-2

Tianhe-2

Peakperformance 54,9 petaFLOPS

Linpack Performance 33,8 petaFLOPS

Energieverbrauch 17,8MW/24MW

Exascale Supercomputer

Peakperformance 10 exaFLOPS

Energieverbrauch 3294MW/4416MW

Energieproblem!

5 / 29

Page 16: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Tianhe-2

Tianhe-2

Peakperformance 54,9 petaFLOPS

Linpack Performance 33,8 petaFLOPS

Energieverbrauch 17,8MW/24MW

Exascale Supercomputer

Peakperformance 10 exaFLOPS

Energieverbrauch 3294MW/4416MW

Energieproblem!

5 / 29

Page 17: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Tianhe-2

Tianhe-2

Peakperformance 54,9 petaFLOPS

Linpack Performance 33,8 petaFLOPS

Energieverbrauch 17,8MW/24MW

Exascale Supercomputer

Peakperformance 10 exaFLOPS

Energieverbrauch 3294MW/4416MW

Energieproblem!

5 / 29

Page 18: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Tianhe-2

Tianhe-2

Peakperformance 54,9 petaFLOPS

Linpack Performance 33,8 petaFLOPS

Energieverbrauch 17,8MW/24MW

Exascale Supercomputer

Peakperformance 10 exaFLOPS

Energieverbrauch 3294MW/4416MW

Energieproblem!

5 / 29

Page 19: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Tianhe-2

Tianhe-2

Peakperformance 54,9 petaFLOPS

Linpack Performance 33,8 petaFLOPS

Energieverbrauch 17,8MW/24MW

Exascale Supercomputer

Peakperformance 10 exaFLOPS

Energieverbrauch 3294MW/4416MW

Energieproblem!

5 / 29

Page 20: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Energieproblem

Verbrauch von 4416MW

Atomkraftwerk Isar 2 produziert 1410MW

3 Atomkraftwerke

ein Raspberry Pi verbraucht nur 3.5 Watt

Losung?

6 / 29

Page 21: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Energieproblem

Verbrauch von 4416MW

Atomkraftwerk Isar 2 produziert 1410MW

3 Atomkraftwerke

ein Raspberry Pi verbraucht nur 3.5 Watt

Losung?

6 / 29

Page 22: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Energieproblem

Verbrauch von 4416MW

Atomkraftwerk Isar 2 produziert 1410MW

3 Atomkraftwerke

ein Raspberry Pi verbraucht nur 3.5 Watt

Losung?

6 / 29

Page 23: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Energieproblem

Verbrauch von 4416MW

Atomkraftwerk Isar 2 produziert 1410MW

3 Atomkraftwerke

ein Raspberry Pi verbraucht nur 3.5 Watt

Losung?

6 / 29

Page 24: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Energieproblem

Verbrauch von 4416MW

Atomkraftwerk Isar 2 produziert 1410MW

3 Atomkraftwerke

ein Raspberry Pi verbraucht nur 3.5 Watt

Losung?

6 / 29

Page 25: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Energieproblem

Verbrauch von 4416MW

Atomkraftwerk Isar 2 produziert 1410MW

3 Atomkraftwerke

ein Raspberry Pi verbraucht nur 3.5 Watt

Losung?

6 / 29

Page 26: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Energieproblem

Verbrauch von 4416MW

Atomkraftwerk Isar 2 produziert 1410MW

3 Atomkraftwerke

ein Raspberry Pi verbraucht nur 3.5 Watt

Losung?

6 / 29

Page 27: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Irdis Pi

64 Pi’s

64×700 MHz ARMv6

16GB RAM

224 Watt

7 / 29

Page 28: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Irdis Pi

64 Pi’s

64×700 MHz ARMv6

16GB RAM

224 Watt

7 / 29

Page 29: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Irdis Pi

64 Pi’s

64×700 MHz ARMv6

16GB RAM

224 Watt

7 / 29

Page 30: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Irdis Pi

64 Pi’s

64×700 MHz ARMv6

16GB RAM

224 Watt

7 / 29

Page 31: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Irdis Pi

64 Pi’s

64×700 MHz ARMv6

16GB RAM

224 Watt

7 / 29

Page 32: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Benchmark mit verschiedenen Problemgroßen

8 / 29

Page 33: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Vor-/Nachteile

Vorteilegeringe Anschaffungskosten

Nachteilewenig Leistungwenig Speicherstark Bandbreiten beschranktGPU kein openCL

keine Losung!

9 / 29

Page 34: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Vor-/Nachteile

Vorteilegeringe Anschaffungskosten

Nachteilewenig Leistungwenig Speicherstark Bandbreiten beschranktGPU kein openCL

keine Losung!

9 / 29

Page 35: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Vor-/Nachteile

Vorteilegeringe Anschaffungskosten

Nachteilewenig Leistungwenig Speicherstark Bandbreiten beschranktGPU kein openCL

keine Losung!

9 / 29

Page 36: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Vor-/Nachteile

Vorteilegeringe Anschaffungskosten

Nachteilewenig Leistungwenig Speicherstark Bandbreiten beschranktGPU kein openCL

keine Losung!

9 / 29

Page 37: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Vor-/Nachteile

Vorteilegeringe Anschaffungskosten

Nachteilewenig Leistungwenig Speicherstark Bandbreiten beschranktGPU kein openCL

keine Losung!

9 / 29

Page 38: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Vor-/Nachteile

Vorteilegeringe Anschaffungskosten

Nachteilewenig Leistungwenig Speicherstark Bandbreiten beschranktGPU kein openCL

keine Losung!

9 / 29

Page 39: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Vor-/Nachteile

Vorteilegeringe Anschaffungskosten

Nachteilewenig Leistungwenig Speicherstark Bandbreiten beschranktGPU kein openCL

keine Losung!

9 / 29

Page 40: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Vor-/Nachteile

Vorteilegeringe Anschaffungskosten

Nachteilewenig Leistungwenig Speicherstark Bandbreiten beschranktGPU kein openCL

keine Losung!

9 / 29

Page 41: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Vor-/Nachteile

Vorteilegeringe Anschaffungskosten

Nachteilewenig Leistungwenig Speicherstark Bandbreiten beschranktGPU kein openCL

keine Losung!

9 / 29

Page 42: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Vor-/Nachteile

Vorteilegeringe Anschaffungskosten

Nachteilewenig Leistungwenig Speicherstark Bandbreiten beschranktGPU kein openCL

keine Losung!

9 / 29

Page 43: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Neue Architekturen

MPPAMulti-Purpose Processor Array

von Kalray

Hauptsitz Paris

Grundung 2008

Board: MPPA256

Epiphany

von Adapteva

Hauptsitz Lexington (Boston)

Grundung 2008

Board: Parallella

10 / 29

Page 44: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Neue Architekturen

MPPAMulti-Purpose Processor Array

von Kalray

Hauptsitz Paris

Grundung 2008

Board: MPPA256

Epiphany

von Adapteva

Hauptsitz Lexington (Boston)

Grundung 2008

Board: Parallella

10 / 29

Page 45: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Neue Architekturen

MPPAMulti-Purpose Processor Array

von Kalray

Hauptsitz Paris

Grundung 2008

Board: MPPA256

Epiphany

von Adapteva

Hauptsitz Lexington (Boston)

Grundung 2008

Board: Parallella

10 / 29

Page 46: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Neue Architekturen

MPPAMulti-Purpose Processor Array

von Kalray

Hauptsitz Paris

Grundung 2008

Board: MPPA256

Epiphany

von Adapteva

Hauptsitz Lexington (Boston)

Grundung 2008

Board: Parallella

10 / 29

Page 47: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Neue Architekturen

MPPAMulti-Purpose Processor Array

von Kalray

Hauptsitz Paris

Grundung 2008

Board: MPPA256

Epiphany

von Adapteva

Hauptsitz Lexington (Boston)

Grundung 2008

Board: Parallella

10 / 29

Page 48: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Neue Architekturen

MPPAMulti-Purpose Processor Array

von Kalray

Hauptsitz Paris

Grundung 2008

Board: MPPA256

Epiphany

von Adapteva

Hauptsitz Lexington (Boston)

Grundung 2008

Board: Parallella

10 / 29

Page 49: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Neue Architekturen

MPPAMulti-Purpose Processor Array

von Kalray

Hauptsitz Paris

Grundung 2008

Board: MPPA256

Epiphany

von Adapteva

Hauptsitz Lexington (Boston)

Grundung 2008

Board: Parallella

10 / 29

Page 50: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Neue Architekturen

MPPAMulti-Purpose Processor Array

von Kalray

Hauptsitz Paris

Grundung 2008

Board: MPPA256

Epiphany

von Adapteva

Hauptsitz Lexington (Boston)

Grundung 2008

Board: Parallella

10 / 29

Page 51: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Neue Architekturen

MPPAMulti-Purpose Processor Array

von Kalray

Hauptsitz Paris

Grundung 2008

Board: MPPA256

Epiphany

von Adapteva

Hauptsitz Lexington (Boston)

Grundung 2008

Board: Parallella

10 / 29

Page 52: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Neue Architekturen

MPPAMulti-Purpose Processor Array

von Kalray

Hauptsitz Paris

Grundung 2008

Board: MPPA256

Epiphany

von Adapteva

Hauptsitz Lexington (Boston)

Grundung 2008

Board: Parallella

10 / 29

Page 53: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Neue Architekturen

MPPAMulti-Purpose Processor Array

von Kalray

Hauptsitz Paris

Grundung 2008

Board: MPPA256

Epiphany

von Adapteva

Hauptsitz Lexington (Boston)

Grundung 2008

Board: Parallella

10 / 29

Page 54: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

MPPA

I/O Subsysteme

16 Cluster

16 Rechenkerne

1 Systemkern

11 / 29

Page 55: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

MPPA

I/O Subsysteme

16 Cluster

16 Rechenkerne

1 Systemkern

11 / 29

Page 56: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

MPPA

I/O Subsysteme

16 Cluster

16 Rechenkerne

1 Systemkern

11 / 29

Page 57: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

MPPA

I/O Subsysteme

16 Cluster

16 Rechenkerne

1 Systemkern

11 / 29

Page 58: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

MPPA

I/O Subsysteme

16 Cluster

16 Rechenkerne

1 Systemkern

11 / 29

Page 59: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

MPPA

verschiedene Varianten mit MPPA 64/256/1024

Energieverbrauch 1,8/5/7 Watt

50 GFLOPS/Watt

Steigerung auf 100 GFLOPS/Watt

12 / 29

Page 60: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

MPPA

verschiedene Varianten mit MPPA 64/256/1024

Energieverbrauch 1,8/5/7 Watt

50 GFLOPS/Watt

Steigerung auf 100 GFLOPS/Watt

12 / 29

Page 61: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

MPPA

verschiedene Varianten mit MPPA 64/256/1024

Energieverbrauch 1,8/5/7 Watt

50 GFLOPS/Watt

Steigerung auf 100 GFLOPS/Watt

12 / 29

Page 62: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

MPPA

verschiedene Varianten mit MPPA 64/256/1024

Energieverbrauch 1,8/5/7 Watt

50 GFLOPS/Watt

Steigerung auf 100 GFLOPS/Watt

12 / 29

Page 63: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

MPPA

verschiedene Varianten mit MPPA 64/256/1024

Energieverbrauch 1,8/5/7 Watt

50 GFLOPS/Watt

Steigerung auf 100 GFLOPS/Watt

12 / 29

Page 64: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Epiphany

eingesetzt in Parallella

Chip mit 16/64 Kernen

50 GFLOPS/Watt

13 / 29

Page 65: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Epiphany

eingesetzt in Parallella

Chip mit 16/64 Kernen

50 GFLOPS/Watt

13 / 29

Page 66: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Epiphany

eingesetzt in Parallella

Chip mit 16/64 Kernen

50 GFLOPS/Watt

13 / 29

Page 67: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Epiphany

eingesetzt in Parallella

Chip mit 16/64 Kernen

50 GFLOPS/Watt

13 / 29

Page 68: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Memory

230 32-bit words

4096 Kerne

6-bit column ID

6-bit row ID

off-Chip RAM

14 / 29

Page 69: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Memory

230 32-bit words

4096 Kerne

6-bit column ID

6-bit row ID

off-Chip RAM

14 / 29

Page 70: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Memory

230 32-bit words

4096 Kerne

6-bit column ID

6-bit row ID

off-Chip RAM

14 / 29

Page 71: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Memory

230 32-bit words

4096 Kerne

6-bit column ID

6-bit row ID

off-Chip RAM

14 / 29

Page 72: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Memory

230 32-bit words

4096 Kerne

6-bit column ID

6-bit row ID

off-Chip RAM

14 / 29

Page 73: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Memory

230 32-bit words

4096 Kerne

6-bit column ID

6-bit row ID

off-Chip RAM

14 / 29

Page 74: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

eMesh Netzwerk

cMesh (On-chip write)

Schreibvorgangezwischen Mesh Knoten

8-Byte/Cycle in jedeRichtung

gesamt Durchsatz 62.5GB/s

rMesh (Read request)

Leseoperationen

1 alle 8 Cycle in jedeRichtung

15 / 29

Page 75: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

eMesh Netzwerk

cMesh (On-chip write)

Schreibvorgangezwischen Mesh Knoten

8-Byte/Cycle in jedeRichtung

gesamt Durchsatz 62.5GB/s

rMesh (Read request)

Leseoperationen

1 alle 8 Cycle in jedeRichtung

15 / 29

Page 76: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

eMesh Netzwerk

cMesh (On-chip write)

Schreibvorgangezwischen Mesh Knoten

8-Byte/Cycle in jedeRichtung

gesamt Durchsatz 62.5GB/s

rMesh (Read request)

Leseoperationen

1 alle 8 Cycle in jedeRichtung

15 / 29

Page 77: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

eMesh Netzwerk

cMesh (On-chip write)

Schreibvorgangezwischen Mesh Knoten

8-Byte/Cycle in jedeRichtung

gesamt Durchsatz 62.5GB/s

rMesh (Read request)

Leseoperationen

1 alle 8 Cycle in jedeRichtung

15 / 29

Page 78: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

eMesh Netzwerk

cMesh (On-chip write)

Schreibvorgangezwischen Mesh Knoten

8-Byte/Cycle in jedeRichtung

gesamt Durchsatz 62.5GB/s

rMesh (Read request)

Leseoperationen

1 alle 8 Cycle in jedeRichtung

15 / 29

Page 79: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

eMesh Netzwerk

cMesh (On-chip write)

Schreibvorgangezwischen Mesh Knoten

8-Byte/Cycle in jedeRichtung

gesamt Durchsatz 62.5GB/s

rMesh (Read request)

Leseoperationen

1 alle 8 Cycle in jedeRichtung

15 / 29

Page 80: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

eMesh Netzwerk

cMesh (On-chip write)

Schreibvorgangezwischen Mesh Knoten

8-Byte/Cycle in jedeRichtung

gesamt Durchsatz 62.5GB/s

rMesh (Read request)

Leseoperationen

1 alle 8 Cycle in jedeRichtung

15 / 29

Page 81: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

eMesh Netzwerk

cMesh (On-chip write)

Schreibvorgangezwischen Mesh Knoten

8-Byte/Cycle in jedeRichtung

gesamt Durchsatz 62.5GB/s

rMesh (Read request)

Leseoperationen

1 alle 8 Cycle in jedeRichtung

15 / 29

Page 82: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

eMesh Netzwerk

cMesh (On-chip write)

Schreibvorgangezwischen Mesh Knoten

8-Byte/Cycle in jedeRichtung

gesamt Durchsatz 62.5GB/s

rMesh (Read request)

Leseoperationen

1 alle 8 Cycle in jedeRichtung

15 / 29

Page 83: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

eMesh Netzwerk

xMesh (Off-chip write)

off-Chip Schreiben

weitere Boards

off-Chip I/O 8GB/sec

Sud-Nord / Ost-WestAufteilung

16 / 29

Page 84: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

eMesh Netzwerk

xMesh (Off-chip write)

off-Chip Schreiben

weitere Boards

off-Chip I/O 8GB/sec

Sud-Nord / Ost-WestAufteilung

16 / 29

Page 85: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

eMesh Netzwerk

xMesh (Off-chip write)

off-Chip Schreiben

weitere Boards

off-Chip I/O 8GB/sec

Sud-Nord / Ost-WestAufteilung

16 / 29

Page 86: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

eMesh Netzwerk

xMesh (Off-chip write)

off-Chip Schreiben

weitere Boards

off-Chip I/O 8GB/sec

Sud-Nord / Ost-WestAufteilung

16 / 29

Page 87: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

eMesh Netzwerk

xMesh (Off-chip write)

off-Chip Schreiben

weitere Boards

off-Chip I/O 8GB/sec

Sud-Nord / Ost-WestAufteilung

16 / 29

Page 88: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

eMesh Routing

1 Kern 32,32 schicktLeseanfrage

2 Vergleich: Spalten ID3 Vergleich: Zeilen ID4 Kern 39,39 sendet Daten

mit cMesh/xMesh

17 / 29

Page 89: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

eMesh Routing

1 Kern 32,32 schicktLeseanfrage

2 Vergleich: Spalten ID3 Vergleich: Zeilen ID4 Kern 39,39 sendet Daten

mit cMesh/xMesh

17 / 29

Page 90: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

eMesh Routing

1 Kern 32,32 schicktLeseanfrage

2 Vergleich: Spalten ID3 Vergleich: Zeilen ID4 Kern 39,39 sendet Daten

mit cMesh/xMesh

17 / 29

Page 91: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

eMesh Routing

1 Kern 32,32 schicktLeseanfrage

2 Vergleich: Spalten ID3 Vergleich: Zeilen ID4 Kern 39,39 sendet Daten

mit cMesh/xMesh

17 / 29

Page 92: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

eMesh Routing

1 Kern 32,32 schicktLeseanfrage

2 Vergleich: Spalten ID3 Vergleich: Zeilen ID4 Kern 39,39 sendet Daten

mit cMesh/xMesh

17 / 29

Page 93: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Programmierung MPPA

SigmaC

IDE basierend auf Eclipse

Compiler

GDB integriert in Eclipse

Spezielle Analyse Tools

Debug Board

18 / 29

Page 94: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Programmierung MPPA

SigmaC

IDE basierend auf Eclipse

Compiler

GDB integriert in Eclipse

Spezielle Analyse Tools

Debug Board

18 / 29

Page 95: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Programmierung MPPA

SigmaC

IDE basierend auf Eclipse

Compiler

GDB integriert in Eclipse

Spezielle Analyse Tools

Debug Board

18 / 29

Page 96: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Programmierung MPPA

SigmaC

IDE basierend auf Eclipse

Compiler

GDB integriert in Eclipse

Spezielle Analyse Tools

Debug Board

18 / 29

Page 97: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Programmierung MPPA

SigmaC

IDE basierend auf Eclipse

Compiler

GDB integriert in Eclipse

Spezielle Analyse Tools

Debug Board

18 / 29

Page 98: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Programmierung MPPA

SigmaC

IDE basierend auf Eclipse

Compiler

GDB integriert in Eclipse

Spezielle Analyse Tools

Debug Board

18 / 29

Page 99: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Programmierung MPPA

SigmaC

IDE basierend auf Eclipse

Compiler

GDB integriert in Eclipse

Spezielle Analyse Tools

Debug Board

18 / 29

Page 100: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Programmierung Parallella

C Syntax

IDE basierend auf Eclipse

E-GCC

E-GDB

Simulator

19 / 29

Page 101: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Programmierung Parallella

C Syntax

IDE basierend auf Eclipse

E-GCC

E-GDB

Simulator

19 / 29

Page 102: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Programmierung Parallella

C Syntax

IDE basierend auf Eclipse

E-GCC

E-GDB

Simulator

19 / 29

Page 103: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Programmierung Parallella

C Syntax

IDE basierend auf Eclipse

E-GCC

E-GDB

Simulator

19 / 29

Page 104: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Programmierung Parallella

C Syntax

IDE basierend auf Eclipse

E-GCC

E-GDB

Simulator

19 / 29

Page 105: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Programmierung Parallella

C Syntax

IDE basierend auf Eclipse

E-GCC

E-GDB

Simulator

19 / 29

Page 106: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Matrixmultiplikation

Cij =N−1∑k=0

(Aik Bkj)

Blocked by row and column

Matrix A wird nach untenverschoben

Matrix B verschoben nach rechts

90% Peakperformance

20 / 29

Page 107: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Matrixmultiplikation

Cij =N−1∑k=0

(Aik Bkj)

Blocked by row and column

Matrix A wird nach untenverschoben

Matrix B verschoben nach rechts

90% Peakperformance

20 / 29

Page 108: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Matrixmultiplikation

Cij =N−1∑k=0

(Aik Bkj)

Blocked by row and column

Matrix A wird nach untenverschoben

Matrix B verschoben nach rechts

90% Peakperformance

20 / 29

Page 109: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Matrixmultiplikation

Cij =N−1∑k=0

(Aik Bkj)

Blocked by row and column

Matrix A wird nach untenverschoben

Matrix B verschoben nach rechts

90% Peakperformance

20 / 29

Page 110: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Matrixmultiplikation

Cij =N−1∑k=0

(Aik Bkj)

Blocked by row and column

Matrix A wird nach untenverschoben

Matrix B verschoben nach rechts

90% Peakperformance

20 / 29

Page 111: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Matrixmultiplikation

Cij =N−1∑k=0

(Aik Bkj)

Blocked by row and column

Matrix A wird nach untenverschoben

Matrix B verschoben nach rechts

90% Peakperformance

20 / 29

Page 112: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Matrixmultiplikation Code

1 f o r ( kc = 0; kc < Nside ; kc ++) {2 matmac(me.bankA[me.pingpong]3 , me.bankB[me.pingpong], me.bankC, Score);45 / / Swap A banks h o r i z o n t a l l y6 src = me. bankA [me. pingpong ] ;7 dst = me. tg tA [me. pingpong ] ;8 i f ( kc < ( Nside − 1 ) )9 datacopy(&dmadesc[1], dst, src);

1011 / / Swap B banks v e r t i c a l l y12 src = me. bankB [me. pingpong ] ;13 dst = me. tg tB [me. pingpong ] ;14 i f ( kc < ( Nside − 1 ) )15 datacopy(&dmadesc[1], dst, src);1617 me.pingpong = 1 - me.pingpong;1819 / / Sync wi th a l l o ther cores20 ebarrier(barriers, tgtbars);21 }

21 / 29

Page 113: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Matrixmultiplikation Code

1 f o r ( kc = 0; kc < Nside ; kc ++) {2 matmac(me.bankA[me.pingpong]3 , me.bankB[me.pingpong], me.bankC, Score);45 / / Swap A banks h o r i z o n t a l l y6 src = me. bankA [me. pingpong ] ;7 dst = me. tg tA [me. pingpong ] ;8 i f ( kc < ( Nside − 1 ) )9 datacopy(&dmadesc[1], dst, src);

1011 / / Swap B banks v e r t i c a l l y12 src = me. bankB [me. pingpong ] ;13 dst = me. tg tB [me. pingpong ] ;14 i f ( kc < ( Nside − 1 ) )15 datacopy(&dmadesc[1], dst, src);1617 me.pingpong = 1 - me.pingpong;1819 / / Sync wi th a l l o ther cores20 ebarrier(barriers, tgtbars);21 }

21 / 29

Page 114: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Matrixmultiplikation Code

1 f o r ( kc = 0; kc < Nside ; kc ++) {2 matmac(me.bankA[me.pingpong]3 , me.bankB[me.pingpong], me.bankC, Score);45 / / Swap A banks h o r i z o n t a l l y6 src = me. bankA [me. pingpong ] ;7 dst = me. tg tA [me. pingpong ] ;8 i f ( kc < ( Nside − 1 ) )9 datacopy(&dmadesc[1], dst, src);

1011 / / Swap B banks v e r t i c a l l y12 src = me. bankB [me. pingpong ] ;13 dst = me. tg tB [me. pingpong ] ;14 i f ( kc < ( Nside − 1 ) )15 datacopy(&dmadesc[1], dst, src);1617 me.pingpong = 1 - me.pingpong;1819 / / Sync wi th a l l o ther cores20 ebarrier(barriers, tgtbars);21 }

21 / 29

Page 115: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Matrixmultiplikation Code

1 f o r ( kc = 0; kc < Nside ; kc ++) {2 matmac(me.bankA[me.pingpong]3 , me.bankB[me.pingpong], me.bankC, Score);45 / / Swap A banks h o r i z o n t a l l y6 src = me. bankA [me. pingpong ] ;7 dst = me. tg tA [me. pingpong ] ;8 i f ( kc < ( Nside − 1 ) )9 datacopy(&dmadesc[1], dst, src);

1011 / / Swap B banks v e r t i c a l l y12 src = me. bankB [me. pingpong ] ;13 dst = me. tg tB [me. pingpong ] ;14 i f ( kc < ( Nside − 1 ) )15 datacopy(&dmadesc[1], dst, src);1617 me.pingpong = 1 - me.pingpong;1819 / / Sync wi th a l l o ther cores20 ebarrier(barriers, tgtbars);21 }

21 / 29

Page 116: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Matrixmultiplikation Code

1 f o r ( kc = 0; kc < Nside ; kc ++) {2 matmac(me.bankA[me.pingpong]3 , me.bankB[me.pingpong], me.bankC, Score);45 / / Swap A banks h o r i z o n t a l l y6 src = me. bankA [me. pingpong ] ;7 dst = me. tg tA [me. pingpong ] ;8 i f ( kc < ( Nside − 1 ) )9 datacopy(&dmadesc[1], dst, src);

1011 / / Swap B banks v e r t i c a l l y12 src = me. bankB [me. pingpong ] ;13 dst = me. tg tB [me. pingpong ] ;14 i f ( kc < ( Nside − 1 ) )15 datacopy(&dmadesc[1], dst, src);1617 me.pingpong = 1 - me.pingpong;1819 / / Sync wi th a l l o ther cores20 ebarrier(barriers, tgtbars);21 }

21 / 29

Page 117: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Probleme

Struktur des eMesh Netzwerks

Unterschied zwischen xMesh und cMesh

einzelnes eMesh maximal 4096 Kerne

Initialkosten von MPI bei sehr vielen Kernen zu hoch

MPI zu schwer fur einzelne Kerne

22 / 29

Page 118: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Probleme

Struktur des eMesh Netzwerks

Unterschied zwischen xMesh und cMesh

einzelnes eMesh maximal 4096 Kerne

Initialkosten von MPI bei sehr vielen Kernen zu hoch

MPI zu schwer fur einzelne Kerne

22 / 29

Page 119: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Probleme

Struktur des eMesh Netzwerks

Unterschied zwischen xMesh und cMesh

einzelnes eMesh maximal 4096 Kerne

Initialkosten von MPI bei sehr vielen Kernen zu hoch

MPI zu schwer fur einzelne Kerne

22 / 29

Page 120: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Probleme

Struktur des eMesh Netzwerks

Unterschied zwischen xMesh und cMesh

einzelnes eMesh maximal 4096 Kerne

Initialkosten von MPI bei sehr vielen Kernen zu hoch

MPI zu schwer fur einzelne Kerne

22 / 29

Page 121: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Probleme

Struktur des eMesh Netzwerks

Unterschied zwischen xMesh und cMesh

einzelnes eMesh maximal 4096 Kerne

Initialkosten von MPI bei sehr vielen Kernen zu hoch

MPI zu schwer fur einzelne Kerne

22 / 29

Page 122: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Probleme

Struktur des eMesh Netzwerks

Unterschied zwischen xMesh und cMesh

einzelnes eMesh maximal 4096 Kerne

Initialkosten von MPI bei sehr vielen Kernen zu hoch

MPI zu schwer fur einzelne Kerne

22 / 29

Page 123: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Losungen

effiziente Integration von eMesh in libs/APIs

schlanke Version von MPI (MPI lite)

Zwei-Schichten-Modell mit MPI+SubProgramm

automatische Code Generierung

23 / 29

Page 124: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Losungen

effiziente Integration von eMesh in libs/APIs

schlanke Version von MPI (MPI lite)

Zwei-Schichten-Modell mit MPI+SubProgramm

automatische Code Generierung

23 / 29

Page 125: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Losungen

effiziente Integration von eMesh in libs/APIs

schlanke Version von MPI (MPI lite)

Zwei-Schichten-Modell mit MPI+SubProgramm

automatische Code Generierung

23 / 29

Page 126: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Losungen

effiziente Integration von eMesh in libs/APIs

schlanke Version von MPI (MPI lite)

Zwei-Schichten-Modell mit MPI+SubProgramm

automatische Code Generierung

23 / 29

Page 127: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Losungen

effiziente Integration von eMesh in libs/APIs

schlanke Version von MPI (MPI lite)

Zwei-Schichten-Modell mit MPI+SubProgramm

automatische Code Generierung

23 / 29

Page 128: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Supercomputing mit den neuen Architekturen

Exascale Supercomputer

ahnlich zu Tianhe-2

10 exaFLOPS

3294MW

2’944’000 Rechenknoten

574’080’000 Kerne

bestehend aus Boards

10 exaFLOPS

200MW 6% (800MW 24%)

98 Millionen Boards

6’272’000’000 Kerne

24 / 29

Page 129: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Supercomputing mit den neuen Architekturen

Exascale Supercomputer

ahnlich zu Tianhe-2

10 exaFLOPS

3294MW

2’944’000 Rechenknoten

574’080’000 Kerne

bestehend aus Boards

10 exaFLOPS

200MW 6% (800MW 24%)

98 Millionen Boards

6’272’000’000 Kerne

24 / 29

Page 130: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Supercomputing mit den neuen Architekturen

Exascale Supercomputer

ahnlich zu Tianhe-2

10 exaFLOPS

3294MW

2’944’000 Rechenknoten

574’080’000 Kerne

bestehend aus Boards

10 exaFLOPS

200MW 6% (800MW 24%)

98 Millionen Boards

6’272’000’000 Kerne

24 / 29

Page 131: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Supercomputing mit den neuen Architekturen

Exascale Supercomputer

ahnlich zu Tianhe-2

10 exaFLOPS

3294MW

2’944’000 Rechenknoten

574’080’000 Kerne

bestehend aus Boards

10 exaFLOPS

200MW 6% (800MW 24%)

98 Millionen Boards

6’272’000’000 Kerne

24 / 29

Page 132: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Supercomputing mit den neuen Architekturen

Exascale Supercomputer

ahnlich zu Tianhe-2

10 exaFLOPS

3294MW

2’944’000 Rechenknoten

574’080’000 Kerne

bestehend aus Boards

10 exaFLOPS

200MW 6% (800MW 24%)

98 Millionen Boards

6’272’000’000 Kerne

24 / 29

Page 133: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Supercomputing mit den neuen Architekturen

Exascale Supercomputer

ahnlich zu Tianhe-2

10 exaFLOPS

3294MW

2’944’000 Rechenknoten

574’080’000 Kerne

bestehend aus Boards

10 exaFLOPS

200MW 6% (800MW 24%)

98 Millionen Boards

6’272’000’000 Kerne

24 / 29

Page 134: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Supercomputing mit den neuen Architekturen

Exascale Supercomputer

ahnlich zu Tianhe-2

10 exaFLOPS

3294MW

2’944’000 Rechenknoten

574’080’000 Kerne

bestehend aus Boards

10 exaFLOPS

200MW 6% (800MW 24%)

98 Millionen Boards

6’272’000’000 Kerne

24 / 29

Page 135: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Supercomputing mit den neuen Architekturen

Exascale Supercomputer

ahnlich zu Tianhe-2

10 exaFLOPS

3294MW

2’944’000 Rechenknoten

574’080’000 Kerne

bestehend aus Boards

10 exaFLOPS

200MW 6% (800MW 24%)

98 Millionen Boards

6’272’000’000 Kerne

24 / 29

Page 136: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Supercomputing mit den neuen Architekturen

Exascale Supercomputer

ahnlich zu Tianhe-2

10 exaFLOPS

3294MW

2’944’000 Rechenknoten

574’080’000 Kerne

bestehend aus Boards

10 exaFLOPS

200MW 6% (800MW 24%)

98 Millionen Boards

6’272’000’000 Kerne

24 / 29

Page 137: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Supercomputing mit den neuen Architekturen

Exascale Supercomputer

ahnlich zu Tianhe-2

10 exaFLOPS

3294MW

2’944’000 Rechenknoten

574’080’000 Kerne

bestehend aus Boards

10 exaFLOPS

200MW 6% (800MW 24%)

98 Millionen Boards

6’272’000’000 Kerne

24 / 29

Page 138: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Supercomputing mit den neuen ArchitekturenProbleme

Probleme

Platzverbrauch

Kuhlung

Wartung

25 / 29

Page 139: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Supercomputing mit den neuen ArchitekturenProbleme

Probleme

Platzverbrauch

Kuhlung

Wartung

25 / 29

Page 140: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Supercomputing mit den neuen ArchitekturenProbleme

Probleme

Platzverbrauch

Kuhlung

Wartung

25 / 29

Page 141: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Supercomputing mit den neuen ArchitekturenProbleme

Probleme

Platzverbrauch

Kuhlung

Wartung

25 / 29

Page 142: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Supercomputing mit den neuen ArchitekturenProbleme

Probleme

Platzverbrauch

Kuhlung

Wartung

25 / 29

Page 143: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Supercomputing mit den neuen ArchitekturenProbleme

Probleme

Platzverbrauch

Kuhlung

Wartung

25 / 29

Page 144: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Supercomputing mit den neuen ArchitekturenProbleme

Moglich Losung:

Konstruktion eine PCIe Karte ahnlich zu Xeon Phi

Board mit mehreren Chips

Wurfel mit mehreren Boards

26 / 29

Page 145: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Supercomputing mit den neuen ArchitekturenProbleme

Moglich Losung:

Konstruktion eine PCIe Karte ahnlich zu Xeon Phi

Board mit mehreren Chips

Wurfel mit mehreren Boards

26 / 29

Page 146: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Supercomputing mit den neuen ArchitekturenProbleme

Moglich Losung:

Konstruktion eine PCIe Karte ahnlich zu Xeon Phi

Board mit mehreren Chips

Wurfel mit mehreren Boards

26 / 29

Page 147: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Supercomputing mit den neuen ArchitekturenProbleme

Moglich Losung:

Konstruktion eine PCIe Karte ahnlich zu Xeon Phi

Board mit mehreren Chips

Wurfel mit mehreren Boards

26 / 29

Page 148: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Supercomputing mit den neuen ArchitekturenProbleme

Moglich Losung:

Konstruktion eine PCIe Karte ahnlich zu Xeon Phi

Board mit mehreren Chips

Wurfel mit mehreren Boards

26 / 29

Page 149: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Energieeffizienz

Tianhe-2 1,9 GFLOPS/Watt

Piz Daint 3,1 GFLOPS/Watt

Xeon Phi 9 GFLOPS/Watt

Nvidia GT 630(GK208) 27,7 GFLOPS/Watt

Epiphany/MPPA 50 GFLOPS/Watt

Zukunft MPPA bis zu 100 GFLOPS/Watt

27 / 29

Page 150: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Energieeffizienz

Tianhe-2 1,9 GFLOPS/Watt

Piz Daint 3,1 GFLOPS/Watt

Xeon Phi 9 GFLOPS/Watt

Nvidia GT 630(GK208) 27,7 GFLOPS/Watt

Epiphany/MPPA 50 GFLOPS/Watt

Zukunft MPPA bis zu 100 GFLOPS/Watt

27 / 29

Page 151: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Energieeffizienz

Tianhe-2 1,9 GFLOPS/Watt

Piz Daint 3,1 GFLOPS/Watt

Xeon Phi 9 GFLOPS/Watt

Nvidia GT 630(GK208) 27,7 GFLOPS/Watt

Epiphany/MPPA 50 GFLOPS/Watt

Zukunft MPPA bis zu 100 GFLOPS/Watt

27 / 29

Page 152: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Energieeffizienz

Tianhe-2 1,9 GFLOPS/Watt

Piz Daint 3,1 GFLOPS/Watt

Xeon Phi 9 GFLOPS/Watt

Nvidia GT 630(GK208) 27,7 GFLOPS/Watt

Epiphany/MPPA 50 GFLOPS/Watt

Zukunft MPPA bis zu 100 GFLOPS/Watt

27 / 29

Page 153: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Energieeffizienz

Tianhe-2 1,9 GFLOPS/Watt

Piz Daint 3,1 GFLOPS/Watt

Xeon Phi 9 GFLOPS/Watt

Nvidia GT 630(GK208) 27,7 GFLOPS/Watt

Epiphany/MPPA 50 GFLOPS/Watt

Zukunft MPPA bis zu 100 GFLOPS/Watt

27 / 29

Page 154: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Energieeffizienz

Tianhe-2 1,9 GFLOPS/Watt

Piz Daint 3,1 GFLOPS/Watt

Xeon Phi 9 GFLOPS/Watt

Nvidia GT 630(GK208) 27,7 GFLOPS/Watt

Epiphany/MPPA 50 GFLOPS/Watt

Zukunft MPPA bis zu 100 GFLOPS/Watt

27 / 29

Page 155: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Fazit

Schritt in die richtige Richtung aber keine finale Losung

Hat:

gute Energieeffizienz

Braucht:

bessere Integration in Software Libraries

einfache Programmierkonzepte

Codegenerator

bessere Umsetzung fur Cluster

28 / 29

Page 156: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Fazit

Schritt in die richtige Richtung aber keine finale Losung

Hat:

gute Energieeffizienz

Braucht:

bessere Integration in Software Libraries

einfache Programmierkonzepte

Codegenerator

bessere Umsetzung fur Cluster

28 / 29

Page 157: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Fazit

Schritt in die richtige Richtung aber keine finale Losung

Hat:

gute Energieeffizienz

Braucht:

bessere Integration in Software Libraries

einfache Programmierkonzepte

Codegenerator

bessere Umsetzung fur Cluster

28 / 29

Page 158: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Fazit

Schritt in die richtige Richtung aber keine finale Losung

Hat:

gute Energieeffizienz

Braucht:

bessere Integration in Software Libraries

einfache Programmierkonzepte

Codegenerator

bessere Umsetzung fur Cluster

28 / 29

Page 159: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Fazit

Schritt in die richtige Richtung aber keine finale Losung

Hat:

gute Energieeffizienz

Braucht:

bessere Integration in Software Libraries

einfache Programmierkonzepte

Codegenerator

bessere Umsetzung fur Cluster

28 / 29

Page 160: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Fazit

Schritt in die richtige Richtung aber keine finale Losung

Hat:

gute Energieeffizienz

Braucht:

bessere Integration in Software Libraries

einfache Programmierkonzepte

Codegenerator

bessere Umsetzung fur Cluster

28 / 29

Page 161: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Fazit

Schritt in die richtige Richtung aber keine finale Losung

Hat:

gute Energieeffizienz

Braucht:

bessere Integration in Software Libraries

einfache Programmierkonzepte

Codegenerator

bessere Umsetzung fur Cluster

28 / 29

Page 162: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Fazit

Schritt in die richtige Richtung aber keine finale Losung

Hat:

gute Energieeffizienz

Braucht:

bessere Integration in Software Libraries

einfache Programmierkonzepte

Codegenerator

bessere Umsetzung fur Cluster

28 / 29

Page 163: Manycores: Hardware und Low-Level Programmierung fileEinfuhrung¨ Neue Architekturen Programmierung Supercomputing Fazit Ubersicht¨ Einfuhrung¨ Neue Architekturen Programmierung

Einfuhrung Neue Architekturen Programmierung Supercomputing Fazit

Fragen?

29 / 29