Flattend Butterfly - uni-paderborn.de...• Latenzzeit = Ping-Pong-Zeit / Iter / 2 – Wenn mehr als...

21
1 J. Simon - Architecture of Parallel Computer Systems SoSe 2018 < 1 > Flattend Butterfly Pro O(log n) weniger Schalter „konstanter“ Durchmesser 4-ary 2-fly 4-ary 2-flat 2-ary 4-fly 2-ary 4-flat Cons Grad k+O(log n) J. Simon - Architecture of Parallel Computer Systems SoSe 2018 < 2 > Dragonfly Pro Bisektionsweite beliebig anpassbar Blockdiagramm einer Gruppe Blockdiagramm eines Dragonfly-Netzwerks local channels terminal channels (tc) global channels (gc)

Transcript of Flattend Butterfly - uni-paderborn.de...• Latenzzeit = Ping-Pong-Zeit / Iter / 2 – Wenn mehr als...

Page 1: Flattend Butterfly - uni-paderborn.de...• Latenzzeit = Ping-Pong-Zeit / Iter / 2 – Wenn mehr als ein Prozessorpaar gleichzeitig Ping-Pong durchführen, dann steigt in Netzen mit

1

J. Simon - Architecture of Parallel Computer Systems SoSe 2018 < 1 >

Flattend Butterfly

Pro– O(log n) weniger Schalter– „konstanter“ Durchmesser

4-ary 2-fly 4-ary 2-flat

2-ary 4-fly 2-ary 4-flat

Cons– Grad k+O(log n)

J. Simon - Architecture of Parallel Computer Systems SoSe 2018 < 2 >

Dragonfly

Pro– Bisektionsweite beliebig anpassbar

Blockdiagramm einer Gruppe Blockdiagramm eines Dragonfly-Netzwerks

loca

lcha

nnel

s

terminal channels (tc)

global channels (gc)

Page 2: Flattend Butterfly - uni-paderborn.de...• Latenzzeit = Ping-Pong-Zeit / Iter / 2 – Wenn mehr als ein Prozessorpaar gleichzeitig Ping-Pong durchführen, dann steigt in Netzen mit

2

J. Simon - Architecture of Parallel Computer Systems SoSe 2018 < 3 >

Thinned Fat-Tree

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

Fat-Tree hat gute Eigenschaften, aber• Fat Tree hat l • kl-1 viele Schalter (k=2 l * n/2)• l > k mehr Schalter als Knoten

Verringerung der Anzahl an SchalternLevel

5

4

3

2

1

thinning

J. Simon - Architecture of Parallel Computer Systems SoSe 2018 < 4 >

Messbare Parameter von Netzwerken (1)

Anwender sind vielmehr an messbaren Leistungskennzahlen interessiert

• Minimale Latenzzeit– Verzögerung einer Kommunikation– Zeit zwischen Absenden und Ankunft des Packet-Headers– Einheit: Zeit, meistens in µs – Vorgehen bei Messung:

• Ping-Pong Benchmark mit Austausch leerer Nachricht „0-Byte“• Vorheriges „Warm-Up“ zugelassen• Für exakte Zeitmessung mehrere Iterationen (Iter) durchführen• Latenzzeit = Ping-Pong-Zeit / Iter / 2

– Wenn mehr als ein Prozessorpaar gleichzeitig Ping-Pong durchführen, dann steigt in Netzen mit kleiner Bisektionsbreite die gemessene Latenz (network congestion).

Page 3: Flattend Butterfly - uni-paderborn.de...• Latenzzeit = Ping-Pong-Zeit / Iter / 2 – Wenn mehr als ein Prozessorpaar gleichzeitig Ping-Pong durchführen, dann steigt in Netzen mit

3

J. Simon - Architecture of Parallel Computer Systems SoSe 2018 < 5 >

Messbare Parameter von Netzwerken (2)

• Maximale Bandbreite– Bestenfalls übertragbare Anzahl an Daten pro Zeiteinheit– Einheit: Byte pro Sekunde– Problem:

• Overhead nur bei Verwendung großer Datenpakete „O(MByte)“ vernachlässigbar• Oftmals durch Protokoll bedingt nur kleine Datenpakete fester Größe möglich

– Vorgehen bei Messung:• Senden von großen Datenpaketen ohne dessen Zurücksenden• Ping-Ping Benchmark mit Senden einer Eingangsbestätigung

– Bei mehreren Kommunikationspaaren gleichzeitig ist die Bandbreite abhängig von der Bisektionsbreite

J. Simon - Architecture of Parallel Computer Systems SoSe 2018 < 6 >

Messbare Parameter von Netzwerken (3)

• Übertragungszeit– Übertragungszeit V ist abhängig von Größe der Nachricht– Einheit: Zeit, meistens in µs– Problem:

• Übertragungszeit nicht unbedingt proportional zu der Größe des Datenpakets• Treppenfunktion, falls Pufferung und Fragmentierung der Nachrichten durchgeführt

wird– Vorgehen bei Messung:

• Ping-Ping Benchmark mit Senden einer Eingangsbestätigung• Verschiedene Größen an Datenpaketen messen

Page 4: Flattend Butterfly - uni-paderborn.de...• Latenzzeit = Ping-Pong-Zeit / Iter / 2 – Wenn mehr als ein Prozessorpaar gleichzeitig Ping-Pong durchführen, dann steigt in Netzen mit

4

J. Simon - Architecture of Parallel Computer Systems SoSe 2018 < 7 >

Messbare Parameter von Netzwerken (4)

• Durchsatz– Bandbreite bei bestimmter Größe eines Datenpakets– Einheit: Byte pro Sekunde– Vorgehen bei Messung: siehe Übertragungszeit– Üblicherweise Diagramm (Durchsatz/Paketgröße) erstellen– „Half-Power-Point“: Bei welcher Paketgröße wird die Hälfte der Bandbreite erreicht?

• und auch die Leistung von Gruppenkommunikationen– Barrier– All-to-all– …

Die messbare Kommunikationsleistung ist nicht nur durch die Topologie des Kommunikationsnetzwerts bestimmt, sondern auch von der eingesetzten Kommunkiationstechnik!

J. Simon - Architecture of Parallel Computer Systems SoSe 2018 < 8 >

Vermittlungstechnik

• Bestimmung eines Kommunikationspfades zwischen zwei Knoten ist notwendig, falls keine direkte Punkt-zu-Punkt-Verbindung zwischen den Knoten existiert

• Leitungsvermittlung (circuit switching) versus Paketvermittlung (paket switching)– Switching bestimmt die Art und Weise des Datentransfers innerhalb eines

Vermittlungsknotens– Routing bestimmt den Kommunikationspfad über den Vermittlungsknoten

Page 5: Flattend Butterfly - uni-paderborn.de...• Latenzzeit = Ping-Pong-Zeit / Iter / 2 – Wenn mehr als ein Prozessorpaar gleichzeitig Ping-Pong durchführen, dann steigt in Netzen mit

5

J. Simon - Architecture of Parallel Computer Systems SoSe 2018 < 9 >

Leitungsvermittlung

• Zuerst werden Adressierungsdaten gesendet• Im Zuge der Adressdekodierung bauen die Vermittlungsknoten einen Weg vom

Sender zum Empfänger auf• Wenn der Weg steht, dann folgen die Nutzdaten• Während der nachfolgenden Nutzdatenübertragung ist kein weiterer

Vermittlungs- oder Wegfindungsaufwand notwendig• Expliziter Verbindungsabbau ist notwendig

J. Simon - Architecture of Parallel Computer Systems SoSe 2018 < 10 >

Paketvermittlung

• Nutzdaten werden in Pakete eingeteilt.• Jedes Paket wird mit Adressinformationen versehen (Paketkopf) und separat

verschickt• Verfahren berücksichtigt, dass Pakete verloren gehen oder in veränderter

Reihenfolge ankommen können

Page 6: Flattend Butterfly - uni-paderborn.de...• Latenzzeit = Ping-Pong-Zeit / Iter / 2 – Wenn mehr als ein Prozessorpaar gleichzeitig Ping-Pong durchführen, dann steigt in Netzen mit

6

J. Simon - Architecture of Parallel Computer Systems SoSe 2018 < 11 >

Paketvermittlung: Store&Forward

• Paket wird vollständig im Vermittlungsknoten aufgenommen (store), dann analysiert, dann über den ausgewählten Ausgang weitergeleitet (forward)

• Paket ist zu einer Zeit auf höchstens zwei Knoten und eine Verbindungsleitung verteilt

• Blockierungsgefahr ist gering• Vermittlungsknoten benötigen ausreichende Pufferkapazität• Mittlere Übertragungszeit ist proportional zu Paketgröße und Durchmesser des

Netzwerks

J. Simon - Architecture of Parallel Computer Systems SoSe 2018 < 12 >

Paketvermittlung: Wormhole

• Sobald Paketkopf angekommen ist, wird entschieden, über welchen Ausgang das ganze Paket weitergegeben wird

• Ist Ausgang belegt, wird Paketrest nicht angenommen• Adresse (evtl. verkürzt/aktualisiert) verlässt ggf. den Switch noch ehe der

Paketrest empfangen worden ist• Paket ist ggf. über viele Knoten und Leitungen verteilt• In jedem Vermittlungsknoten fallen nur die kleinen Zeiten für Adressdekodierung

an• Bei größeren Pakten ist damit die Übertragungszeit relativ unabhängig vom

Durchmesser des Netzwerks

Page 7: Flattend Butterfly - uni-paderborn.de...• Latenzzeit = Ping-Pong-Zeit / Iter / 2 – Wenn mehr als ein Prozessorpaar gleichzeitig Ping-Pong durchführen, dann steigt in Netzen mit

7

J. Simon - Architecture of Parallel Computer Systems SoSe 2018 < 13 >

Blockierung beim Worm-Hole Routing

• Blaue Pfeile: Pakete die im Netz unterwegs sind

• Roter Pfeil: Paket kann nicht weiter vermittelt werden, weil Ausgang belegt ist

J. Simon - Architecture of Parallel Computer Systems SoSe 2018 < 14 >

Paketvermittlung: Virtual Cut-Through

• Im Unterschied zum Wormhole-Routing wird hierbei im Blockierungsfall der Paketrest empfangen und zwischengespeichert.

• Das führt tendenziell dazu, dass Blockierungen lokalen Charakter haben und sich wieder auflösen, statt zu Verklemmungen zu führen

Page 8: Flattend Butterfly - uni-paderborn.de...• Latenzzeit = Ping-Pong-Zeit / Iter / 2 – Wenn mehr als ein Prozessorpaar gleichzeitig Ping-Pong durchführen, dann steigt in Netzen mit

8

J. Simon - Architecture of Parallel Computer Systems SoSe 2018 < 15 >

Paketvermittlung: Vergleich

……

…Worm-Hole

Virtual-Cut-Through

J. Simon - Architecture of Parallel Computer Systems SoSe 2018 < 16 >

Tabellenbasiertes Routing

• Statisches Routingverfahren: für alle Zieladressen ist die Route vorberechnet• Mit der dekodierten Adresse greift der Vermittlungsknoten in eine Tabelle und

liest dort den für die Adresse zu verwendenden Ausgang• Größe der Routing-Tabelle ist proportional zur Anzahl an Knoten im Netzwerk

0

2

1

30

2

1

31

23

Id port1 12 03 3

Id port1 12 13 0

Page 9: Flattend Butterfly - uni-paderborn.de...• Latenzzeit = Ping-Pong-Zeit / Iter / 2 – Wenn mehr als ein Prozessorpaar gleichzeitig Ping-Pong durchführen, dann steigt in Netzen mit

9

J. Simon - Architecture of Parallel Computer Systems SoSe 2018 < 17 >

Source-Routing

• Der komplette Pfad wird vom Sender (Source) bestimmt• Jedes Packet führt die Nummern der zu verwendenden Ausgänge der Reihe nach

mit• Die verwendete Ausgangsnummer wird an den nächsten Knoten nicht mehr

mitgeschickt

0

2

1

30

2

1

31

23

Id port1 1,12 1,03 -

Id port1 12 -3 3,0

Id port1 -2 03 3,0

J. Simon - Architecture of Parallel Computer Systems SoSe 2018 < 18 >

Weitere Kriterien an Verbindungsnetzwerke

• Erweiterbarkeit– Netzwerk für beliebige Anzahl an Rechenknoten nutzbar– Pro Knoten beliebige Anzahl an Verbindungen ins Netzwerk

• Kosten– Annähernd konstante Kosten pro Rechenknoten, unabhängig von der Anzahl an Knoten

• Zuverlässigkeit– Redundanz (Wege, Schalter, Interfaces)

• Zusätzliche Funktionalitäten– Verschiedene Nachrichtentransporte (Synchron, Asynchron)– Optimierungen für Gruppenkommunikation – Remote-Direct-Memory-Access (RDMA)– Dynamisch/adpative Wegewahl

Page 10: Flattend Butterfly - uni-paderborn.de...• Latenzzeit = Ping-Pong-Zeit / Iter / 2 – Wenn mehr als ein Prozessorpaar gleichzeitig Ping-Pong durchführen, dann steigt in Netzen mit

10

J. Simon - Architecture of Parallel Computer Systems SoSe 2018 < 19 >

Generisches Verbindungsnetzwerk

Communication-Assistent (CA) initiiert Netzwerktransaktion

skalierbaresVerbindungsnetzwerk

CA

PMem

CA

PMem

J. Simon - Architecture of Parallel Computer Systems SoSe 2018 < 20 >

Komponenten eines Kommunikationsnetzwerks

• Netzwerkschnittstelle (Network Interface, NI)– an Prozessorknoten angeschlossen– treibt einen oder mehrere Ein-/Ausgabekanäle– einpacken und auspacken der Nachrichten in Pakete

• Verbindung (Links)– ein Bündel von Leitungen oder Fasern– Träger des physikalischen Signals

• Schalter (Switches)– Mehrere Anschlüsse für Ein- und Ausgabekanäle (Ports)– Anschluss von NICs und/oder weiteren Schaltern über Links

Page 11: Flattend Butterfly - uni-paderborn.de...• Latenzzeit = Ping-Pong-Zeit / Iter / 2 – Wenn mehr als ein Prozessorpaar gleichzeitig Ping-Pong durchführen, dann steigt in Netzen mit

11

J. Simon - Architecture of Parallel Computer Systems SoSe 2018 < 21 >

Cluster-Kommunikationsnetzwerke

J. Simon - Architecture of Parallel Computer Systems SoSe 2018 < 22 >

Erste Generation Hochgeschwindigkeitsnetzwerk: MyriNet

• Hersteller: Myricom Inc.• PCI-x / PCI-e Netzwerkkarte mit Kommunikationsprozessor• Skalierbares Kommunikationsnetzwerk• Unterstützung von TCP/IP und MPI• Kommunikationssoftware ist Open Source• Kommunikationsleistung unter MPI

– MyriNet 1.2 Gbit/s (1995)– MyriNet 2Gbit/s (2001, ANSI Standard 1998)

• Latenzzeit: 6 µs• bidir. Bandbreite: 489 MByte/s

– MyriNet 10Gbit/s (Markteinführung 2005)• Latenzzeit: 2,67 µs• Bidirektionale Bandbreite: 2120 MByte/s

Page 12: Flattend Butterfly - uni-paderborn.de...• Latenzzeit = Ping-Pong-Zeit / Iter / 2 – Wenn mehr als ein Prozessorpaar gleichzeitig Ping-Pong durchführen, dann steigt in Netzen mit

12

J. Simon - Architecture of Parallel Computer Systems SoSe 2018 < 23 >

MyriNet: Protokoll

• Wormhole Routing• Source-based Routing

– Neuberechung des CRC an jedem Knoten• Overhead

– 1 Byte Nachricht (10 Hops)=> Paketgröße 17 Byte

– 4 kByte Nachricht (10 Hops)=> Paketgröße 4112 Byte

• Flusskontrolle: STOP/GO• Bitübertragung (MyriNet 10G)

– 8bit / 10bit Kodierung– 1,25 GHz, IB4X-Kabel (8 Aderpaare)

• Keine atomare Operationen

J. Simon - Architecture of Parallel Computer Systems SoSe 2018 < 24 >

MyriNet 2G - NIC• Technologie

– 64 bit, 66 MHz PCI-Bus Karte– 133 MHz oder 200 MHz LANai 9 RISC Prozessor– DMA-Controller (Listen an DMA-Transfers)– 2 MByte lokales SRAM

• Intelligente Network-Interface-Card– MyriNet-Control-Program als C-Code vorliegend

local SRAM

LANai 9

HostInterface

PacketInterfaceRISC

PCIBridge

DMAController

SAN/serial conversion

64bit data64/32 bit,66/33 MHz,

3.3 / 5VPCI Bus

MyriNet2000Serial Link

PCI-DMA chip MyriNetSAN Link

Page 13: Flattend Butterfly - uni-paderborn.de...• Latenzzeit = Ping-Pong-Zeit / Iter / 2 – Wenn mehr als ein Prozessorpaar gleichzeitig Ping-Pong durchführen, dann steigt in Netzen mit

13

J. Simon - Architecture of Parallel Computer Systems SoSe 2018 < 25 >

MyriNet 2G - NIC• PCI-Bus-Interface

– 64/32bit und 66/33MHz mit bis zu 528 MByte/s Bus-Transfer– unterstützt alle Burst-Modi, write-invalidate und Master bzw.

Slave– 64bit Base-Addresse-Register (BAR)

• DMA-Controller– DMA-Transfers können im lokalem Speicher in mehreren Listen

abgelegt sein– auch abhängige DMA-Transfers möglich– Blöcke mit beliebigen Größen und Speicheradressen– unterstützt „Doorbell“ Signalisierungsmechanismus

• Interface Prozessor– frei programmierbarer RISC Prozessor – 1.6 GByte/s Speicherbandbreite auf lokalem Speicher

• MyriNet-2000 serieller Port– bidirektionaler Kanal mit 2.0 GBit/s je Richtung– Fiber-Kabel

J. Simon - Architecture of Parallel Computer Systems SoSe 2018 < 26 >

MyriNet 2G - Switch Board

• 16-wege Kreuzschienenschalter• Line-Card mit 8 Front-Panel Ports und 8 Backplane Ports• Front-Panel Ports mit Fiber-Link• Backplane Ports mit Kupfer-Link• Einbaubar in ein Switch-Chassis mit integrierter Backplane

Page 14: Flattend Butterfly - uni-paderborn.de...• Latenzzeit = Ping-Pong-Zeit / Iter / 2 – Wenn mehr als ein Prozessorpaar gleichzeitig Ping-Pong durchführen, dann steigt in Netzen mit

14

J. Simon - Architecture of Parallel Computer Systems SoSe 2018 < 27 >

MyriNet 2G Switch - 128 Ports

• Basiskomponente ist der 16-wege Schalter• Switch-Chassis mit aktiver Backplane

– Maximal 16 Switch-Boards à 8 Host-Anschlüsse

J. Simon - Architecture of Parallel Computer Systems SoSe 2018 < 28 >

MyriNet – Clos64+64

• 16 Basis-Switches• Volle Bisektionsbreite• Basiskomponente für größere Switches

64 Ports für Hosts

64 Ports für nächste Ebene

Page 15: Flattend Butterfly - uni-paderborn.de...• Latenzzeit = Ping-Pong-Zeit / Iter / 2 – Wenn mehr als ein Prozessorpaar gleichzeitig Ping-Pong durchführen, dann steigt in Netzen mit

15

J. Simon - Architecture of Parallel Computer Systems SoSe 2018 < 29 >

MyriNet: 512 Ports

• 512 Rechenknoten, 160 Basisschalter• Volle Bisektionsbreite (128 GByte/s Bisektionsbandbreite)

J. Simon - Architecture of Parallel Computer Systems SoSe 2018 < 30 >

MyriNet-10G

• PCIe Karte– 10 GBit/s Links

• X-Bar mit 32 Ports

Switches: 512 Ports, 256 Ports, 128 Ports

Page 16: Flattend Butterfly - uni-paderborn.de...• Latenzzeit = Ping-Pong-Zeit / Iter / 2 – Wenn mehr als ein Prozessorpaar gleichzeitig Ping-Pong durchführen, dann steigt in Netzen mit

16

J. Simon - Architecture of Parallel Computer Systems SoSe 2018 < 31 >

Hochgeschwindigkeitsnetzwerk: QsNet

Network Adapter

128 Port Switch Chassis

16 Port Switch Card

Manufacturer: Quadrics Ltd.• Establishment of the company in 1996• 2003: 6 from the Top10 of HPC systems were equipped with QsNet• Company closed in 2009

J. Simon - Architecture of Parallel Computer Systems SoSe 2018 < 32 >

Quadrics - NIC

• 100MHz IO processor• 8Kbytes on board cache• MMU with hardware

tablewalk and 16 entry TLB• DMA engine• 400Mhz byte wide LVDS link• 64 bit 66MHz PCI interface• 64Mbytes local ECC SDRAM• 0.5Mbytes flash memory

Page 17: Flattend Butterfly - uni-paderborn.de...• Latenzzeit = Ping-Pong-Zeit / Iter / 2 – Wenn mehr als ein Prozessorpaar gleichzeitig Ping-Pong durchführen, dann steigt in Netzen mit

17

J. Simon - Architecture of Parallel Computer Systems SoSe 2018 < 33 >

Quadrics - Topologie

128 Rechenknoten, 80 BasisschalterVolle Bisektionsbreite

J. Simon - Architecture of Parallel Computer Systems SoSe 2018 < 34 >

QsNet III

NIC• 2 x 25 Gbit/s Links, PCIe 2.0• Copper or optical links• 128 MByte of local memorySwitch-Fabric• X-Bar with 32 Ports• 4 x 6.25 Gbit/s (2.5 GByte/s)

Fabric• Up to 512 Ports• Fat-Tree or 2d grid• Broadcast and barrier support

Page 18: Flattend Butterfly - uni-paderborn.de...• Latenzzeit = Ping-Pong-Zeit / Iter / 2 – Wenn mehr als ein Prozessorpaar gleichzeitig Ping-Pong durchführen, dann steigt in Netzen mit

18

J. Simon - Architecture of Parallel Computer Systems SoSe 2018 < 35 >

InfiniBand• NIC:

– InfiniBand 4x QDR• 40 GBit/s, PCIe2.0 8x

– InfiniBand 4x FDR• 56 Gbit/s, PCIe3 8x

– InfiniBand 4x, EDR• 100 Gbit/s, PCIe3 16x

• Switch Fabrics– X-Bar

• 36 Ports (QDR, FDR)– Virtual Cut Through mit Service-Levels und Virtual-Lanes– Table-based routing– Credit-based Flusskontrolle– Fabrics

• bis zu 864 Ports (QDR)• Multistage Clos-Netzwerk

J. Simon - Architecture of Parallel Computer Systems SoSe 2018 < 36 >

InfiniBand: Protokoll

• Paketformat– Local Route Header 8 Byte– Global Route Header 40 Byte [optional]– Base Transport Header 12 Byte– Payload: bis zu 4096 Byte– CRC: 4 Byte + 2 Byte

• Overhead– 1 Byte Nachricht => Paketgröße 27 Byte– 4 kByte Nachricht => Paketgröße 4122 Byte

• Übertragung– 8bit / 10bit Kodierung (SDR bis QDR), 64/66 encoding (FDR)– Basiert auf 1 Gbit/s Ethernet (802.3z), aber mit 2,5 Gbit/s (SDR)

Page 19: Flattend Butterfly - uni-paderborn.de...• Latenzzeit = Ping-Pong-Zeit / Iter / 2 – Wenn mehr als ein Prozessorpaar gleichzeitig Ping-Pong durchführen, dann steigt in Netzen mit

19

J. Simon - Architecture of Parallel Computer Systems SoSe 2018 < 37 >

InfiniBand: Paketformat

• Local Route Header 8 Byte– Virtual Lane: 4 bit– Link Version: 4 bit– Service Level: 4 bit– Reserved: 4 bit– LNH: 2 bit– LID: 16 bit– Reserved: 5 bit– Packet Length: 11 bit– SLID: 16 bit

• Base Transport Header– Opcode: 8 bit– Solicited Event: 1 bit– MigReq: 1bit– PCount: 2 bit– Transport Header: 4 bit– PKEY: 16 bit– Reserved: 8 bit– DQP: 24 bit– Acknowledge: 1 bit– Reserved: 7 bit– PSQ: 24 bit

J. Simon - Architecture of Parallel Computer Systems SoSe 2018 < 38 >

InfiniBand Eigenschaften

• RDMA-read und RDMA-write Operation• Atomare Operationen• Speicherzugriffsrechte durch Remote-Host geregelt

– nur Lesen– Lesen / Schreiben

• Umsetzung von virtuelle in physikalische Adressen• Zugriff auf das Netzwerk ohne Wechsel zwischen BS und Benutzerkontext

Page 20: Flattend Butterfly - uni-paderborn.de...• Latenzzeit = Ping-Pong-Zeit / Iter / 2 – Wenn mehr als ein Prozessorpaar gleichzeitig Ping-Pong durchführen, dann steigt in Netzen mit

20

J. Simon - Architecture of Parallel Computer Systems SoSe 2018 < 39 >

10 GBit/s Ethernet

• 10GE Standards– Glasfaserkabel (IEEE 802.3ae)

• Multimode-Fasern mit Reichenweiten bis 300m• Single-Mode Fasern und 1310nm Wellenlänge bis 10km

– Kupferkabel (IEEE 802.3ak und IEEE 802.3an)• Doppelt-twinaxiale Kupferkabel mit Reichenweiten bis 15m• Vier Twisten-Pair, bei CAT6a/7 bis 100m

• NICs– Derzeit noch relativ teuer, hauptsächlich in

zentralen Servern eingesetzt

• Switches– Switch ebenfalls noch teuer– Siehe auch MyiNet, InfiniBand

J. Simon - Architecture of Parallel Computer Systems SoSe 2018 < 40 >

Intel Omni-Path

• PCI-e Host Fabric Interface (HFI)• HFI can also be integrated in the processor

– Xeon PHI– Xeon Server “e.g. Xeon Gold 6148-F”

• Omni-Path Architecture (OPA)– OPA 100 with 100 Gbit/s– 25.8 Gbit/s per lane (4x lanes)– CRC with 14 bit– Enforcement of high priority messages– Link transfer layer 1.5 with Forward Error

Correction (16 flits)– 48 port switch chips

Page 21: Flattend Butterfly - uni-paderborn.de...• Latenzzeit = Ping-Pong-Zeit / Iter / 2 – Wenn mehr als ein Prozessorpaar gleichzeitig Ping-Pong durchführen, dann steigt in Netzen mit

21

J. Simon - Architecture of Parallel Computer Systems SoSe 2018 < 41 >

Xeon Skylake with OPA

Xeon Phi• 7250F with 230 Watt• 7250 with 215 Watt

Xeon SP• 6148F with 160Watt• 6148 with 150Watt

J. Simon - Architecture of Parallel Computer Systems SoSe 2018 < 42 >

Overview Cluster Interconnects• Ethernet GbE, 1 Gbit/s; 10GE, 10 Gbite/s• MyriNet MyriNet 10G, 10 Gbit/s• Quadrics QsNetIII, 25 Gbit/s • InfiniBand QDR 4x, 40 Gbit/s; FDR 4x, 56 Gbit/s, EDR 4x, 100Gbit/s• Omni-Path OPA-1, 100 Gbit/s

Interconnect bi. BW[MByte/s]

Latency [µs]

Local memory[MByte]

Switch NIC

GbE ~80 ~20 0.5 - 1 On-board10 GE 1,200 3 - 12 Single switches PCIeMyriNet 10G 2,200 2.5 2 Clos network PCI-e 8xQsNetIII 4,000 1.3 128 Fat-tree network PCI-e 16xInfiniBand QDR 4x 6,400 1.1 0 - 256 Clos network PCIe2.0 8x

InfiniBand FDR 4x 11,000 1.0 Clos network PCIe3.0 16x, 8x

InfiniBand EDR 4x 23,000 <1.0 Clos network PCIe3.0 16x, 8x

OPA-1 100Gbit/s 22,000 < 1.0 Fat tree PCIe3.0 16x, 8x