Linux HPC Hybrid Cluster GAUSS - uni-due.de · Universität Duisburg-Essen 7.12.2007 3Linux HPC...

45
Universität Duisburg-Essen 7.12.2007 1 Linux HPC Hybrid Cluster GAUSS Linux HPC Hybrid Cluster GAUSS Universität Duisburg-Essen 7.12.2007 Peter Schreiber ZIM / Universität Düsseldorf www.zim.uni-duesseldorf.de/hpc [email protected] 0211-81-13913 0171-9560189

Transcript of Linux HPC Hybrid Cluster GAUSS - uni-due.de · Universität Duisburg-Essen 7.12.2007 3Linux HPC...

Universität Duisburg-Essen 7.12.2007 1Linux HPC Hybrid Cluster GAUSS

Linux HPC Hybrid Cluster GAUSSUniversität Duisburg-Essen

7.12.2007

Peter SchreiberZIM / Universität Düsseldorfwww.zim.uni-duesseldorf.de/[email protected]

Universität Duisburg-Essen 7.12.2007 2Linux HPC Hybrid Cluster GAUSS

ThemenEinleitungHardware-Ausstattung und System-KonzeptSoftware-Ausstattung und homogenes ManagementAnwender-Information und –ErfahrungsaustauschAusblick

Universität Duisburg-Essen 7.12.2007 3Linux HPC Hybrid Cluster GAUSS

EinleitungZentrales Linux-Cluster der HHU im ZIM : GAUSSMultiple-Purpose-Rechnersystem für ein breites Spektrumvon seriellen und parallelisierte AnwendungenErstes Hybrid-Cluster an deutschen Hochschulen mit Itanium-Montecito- und Xeon-Woodcrest-ServernGewinner der EU-weiten Ausschreibung: Bull(Frankreich, Hauptniederlassung Köln)Lieferung in 3 Stufen (November 2006 bis Juli 2007) [ Erweiterung: Dezember 2007 ]Implementierung von Hardware, Betriebssystem und betriebssystemnaher Software in Kooperation mit Bull Deutschland und Frankreich

Universität Duisburg-Essen 7.12.2007 4Linux HPC Hybrid Cluster GAUSS

Universität Duisburg-Essen 7.12.2007 5Linux HPC Hybrid Cluster GAUSS

Universität Duisburg-Essen 7.12.2007 6Linux HPC Hybrid Cluster GAUSS

Universität Duisburg-Essen 7.12.2007 7Linux HPC Hybrid Cluster GAUSS

Kenndaten des Clusters

Spitzenleistung: 1.928 Gflops[ + 537,6 Gflops ]

Anzahl Cores: 312 [ + 96 Cores ]

Summe Memory: 792 GB[ + 192 GB ]

Summe Disk-Storage: 15 TB[ + 1920 GB ]

Cluster-Storage-System: 15 TB

Universität Duisburg-Essen 7.12.2007 8Linux HPC Hybrid Cluster GAUSS

Derzeitige Systemnutzung• Bereits jetzt hohe Systemauslastung

(Monitoring auf Basis von Ganglia)• Beispiele für aktuelle Einsatzfelder mit hohen

Ressourcen-Anforderungen: - Anglistik: Sprachdatenverarbeitung- Bioinformatik / Biologie: Gensequenzanalyse - Chemie / Pharmazie: Molekülmodellierung- Informatik: Hochleistungsvisualisierung- Laser- und Plasmaphysik: Magnetfeldberechnung- Theoretische Physik: Strömungsdynamik

• Hohe Systemleistung im praktischen Betrieb (Beispiel: Performance bei Chemie-Applikationen im Vergleich mit IBM-SMP-Cluster JUMP in Jülich)

Universität Duisburg-Essen 7.12.2007 9Linux HPC Hybrid Cluster GAUSS

Kooperation mit der Firma BullKooperationsprojekt der HHU mit Bull (Drittmittelprojekt)Beginn Oktober 2007 / Laufzeit zunächst 2 JahreZahlreiche clusterbezogene EntwicklungszieleTeilprojekte- Concepts and Tools for the Homogeneous Management

of Bull Clusters and Bull Hybrid Cluster- Bull Competence and Demo Centre- High Performance Visualization Solutions for

Scientific Computing

Universität Duisburg-Essen 7.12.2007 10Linux HPC Hybrid Cluster GAUSS

Hardware-Ausstattung und System-Konzept

Universität Duisburg-Essen 7.12.2007 11Linux HPC Hybrid Cluster GAUSS

Universität Duisburg-Essen 7.12.2007 12Linux HPC Hybrid Cluster GAUSS

Front Ends / Management NodesCluster aus Front-End und Ausfall-Front-End2 x Bull NovaScale 3045 mit jeweils- 2 / 4 x Itanium2 Montecito 9040 Dual-Core 1,6 GHz [2 x 9 MB L3-Cache] (4 bzw. 8 Cores)

- 32 GB Memory- 600 GB Disk - 10 GigE-Myricom- und InfiniBand-InterfaceZugang derzeit: ssh account@{gauss-1|gauss-2}Ausfall-Konzept: ssh account@gaussLogin von WindowsXP-Rechnern: X-Emulator X-WIN32

Universität Duisburg-Essen 7.12.2007 13Linux HPC Hybrid Cluster GAUSS

Kompilations- und TesthostsJeweils 1 Server für Itanium2 und Xeon:- Itanium2: Nutzung des Ausfall-Front-Ends- Xeon: Ausstattung wie Thin Execute NodeZusätzliche Server als Ausfall-Reserve

Universität Duisburg-Essen 7.12.2007 14Linux HPC Hybrid Cluster GAUSS

Execute NodesWide Nodes: 8 x Bull NovaScale 3045 mit jeweils - 4 x Itanium2 Montecito 9040 Dual-Core 1,6 GHz

[2 x 9 MB L3-Cache] (8 Cores)- 32 GB Memory- 600 GB Disk- InfiniBand-Interface

Thin Nodes: 58 x Bull NovaScale R440 mit jeweils - 2 x Xeon Woodcrest 5160 Dual-Core 3 GHz

[4 MB L2-Cache] (4 Cores)- 8 GB Memory- 160 GB Disk- InfiniBand-Interface- 2 Nodes zusätzlich mit 10 GigE-Myricom-Interface

Universität Duisburg-Essen 7.12.2007 15Linux HPC Hybrid Cluster GAUSS

Verbindungsnetzwerk (Interkonnekt)

Voltaire-InfiniBand-Breitbandnetzwerk (IB) - SDR-Technologie (10 Gbps)- IB-Switch für 96 IB-Adapter - IB-Host-Channel-Adapter für alle Nodes- Hohe Bandbreite und niedrige Latenz:

Ca. 800 bis 900 MB/s und ca. 5 bis 6 µs (Messwerte)GigE-Netzwerk- HP-Switch ProCurve 5412- I/O und Cluster-Management- Anbindung des Panasas-Cluster-Storage

(12 x GigE)

Universität Duisburg-Essen 7.12.2007 16Linux HPC Hybrid Cluster GAUSS

Externe Netzwerkverbindungen10 GigE-Verbindungen- Myricom-Interfaces (Testphase)- Anbindung an Campusnetzwerk - Breitband-Verbindung zum Institut für IT-Management- Backup/Restore derzeit über einen Thin Node als

EMC Legato Networker Client mit Netzwerkverbindung zum Storage-Server

GigE-Verbindungen- Zentrale (externe) Lizenz-Server- Desktop-PC im Cluster-VLAN

Universität Duisburg-Essen 7.12.2007 17Linux HPC Hybrid Cluster GAUSS

Storage-System

Alternativen: Lustre (Support durch Bull) oder Panasas (neu bei Bull)Panasas ActiveStor Parallel Storage Cluster +ActiveScale Operating EnvironmentParallel-NAS / Object Storage Architecture (OSD-Standard)File-basiertes StorageVorteile von block- und file-basierten Storage: fast + sharableSkalierbarkeit mit der Anzahl der ShelfsSingle Name Space + Virtual VolumesPerformanz und Sicherheit: Dynamic Load Balancing / Advanced RAID Features / Improved Reliability

Universität Duisburg-Essen 7.12.2007 18Linux HPC Hybrid Cluster GAUSS

Storage-System (2)

Storage-Cluster aus 3 Storage-Shelfs:- Shelf : 1 DirectoryBlade + 10 Storage Blades- Storage Blade: “Rechner“ mit 2 x 250 GB SATA Disk - 3 x 5 = 15 TB Storage- 3 x 4 = 12 GigE-LinksDurchsatz: - Aggregiert: 1050 MB/s- Gemessen bei gleichzeitigem Zugriff mehrerer Hosts:

Ca. 80 MB/s pro Knoten (schneller als lokal)Paralleles Cluster-Filesystem PanFSMulti-Protokoll-Support: DirectFLOW + NFS + CIFSHandling und Installation:Wesentlich einfacher als z.B. bei Lustre

Universität Duisburg-Essen 7.12.2007 19Linux HPC Hybrid Cluster GAUSS

Hardware für Cluster-ManagementManagement-Knoten gauss0 und gauss1Cluster-Konsole + PC als Reserve-Cluster-Konsole5 KVM-Switches (Power Control / LOM)

AusbaubarkeitVerteilung auf 4 Racks + 1 Rack in ReserveHinreichende Dimensionierung der vorhandenen GigE- und IB-Switches

StromversorgungMax. Leistungsaufnahme: Ca. 50 kWUSV : Wide Nodes + IB- und GigE-Switches + Panasas

KlimatisierungWärmeabgabe: Ca. 170.000 BTU/StdKühlluftzuführung und Warmluftabzugsvorrichtung

Universität Duisburg-Essen 7.12.2007 20Linux HPC Hybrid Cluster GAUSS

Software-Ausstattung und homogenes Management

Universität Duisburg-Essen 7.12.2007 21Linux HPC Hybrid Cluster GAUSS

Betriebssystem und betriebsystemnahe SoftwareBull Advanced Server HPC Edition: - Aktuell: HPC BAS4- Binärkompatibel mit kommerzieller Distribution

RHEL AS (64 Bit)- Im Januar verfügbar: Neue BAS-Version mit vollem

Umfang und Release-Ständen von RHEL5Bull HPC Software Stack:- Software-Umgebung für HPC

Universität Duisburg-Essen 7.12.2007 22Linux HPC Hybrid Cluster GAUSS

Homogenes Cluster-ManagementKonfiguration und Steuerung über Management Nodes Cluster-Datenbank ClusterDB (PostgreSQL)Software-Deployment (ksis)BAS-Kommandos (z.B. nsctrl) und eigene KommandosSystem Accounting: - OpenLDAP- Tools für Accounting-Statistiken (Kooperation)System Monitoring:

- NSMaster / Nagios / Ganglia (Web-GUI, Bull)- Frei zugängliche Ganglia-Monitoring-Web-Page- Plugins für PBSpro (Kooperation)

Universität Duisburg-Essen 7.12.2007 23Linux HPC Hybrid Cluster GAUSS

Universität Duisburg-Essen 7.12.2007 24Linux HPC Hybrid Cluster GAUSS

Universität Duisburg-Essen 7.12.2007 25Linux HPC Hybrid Cluster GAUSS

Universität Duisburg-Essen 7.12.2007 26Linux HPC Hybrid Cluster GAUSS

Homogenes Cluster-Management (2)Workload-Management / Batch-System:

- Bull-Standard: Torque- Von Bull unterstützte kommerzielle Produkte:

PBSpro (Altair) und LSF (Platform Computing)- Installiert: PBSpro

(Erweiterung von OpenPBS / Torque)- Job-Submit : Front-End (qsub / GUI: xpbs)- Kein direktes Login auf Kompilations- oder Execute-

Hosts: Zugang über interaktive Queues

Universität Duisburg-Essen 7.12.2007 27Linux HPC Hybrid Cluster GAUSS

Universität Duisburg-Essen 7.12.2007 28Linux HPC Hybrid Cluster GAUSS

Homogenes Cluster-Management (3)

Panasas-Storage: - Web-GUI für Konfiguration und Monitoring - Clusterweite PanFS-Filesysteme (keine Linux-Quotas)- /home und /scratch :

PanFS-Filesysteme mit User-Volume-Quotas50 GB bzw. 100 GB

Universität Duisburg-Essen 7.12.2007 29Linux HPC Hybrid Cluster GAUSS

Universität Duisburg-Essen 7.12.2007 30Linux HPC Hybrid Cluster GAUSS

Universität Duisburg-Essen 7.12.2007 31Linux HPC Hybrid Cluster GAUSS

Universität Duisburg-Essen 7.12.2007 32Linux HPC Hybrid Cluster GAUSS

Homogenes Cluster-Management (4)

Backup/Restore:• Derzeit:

- Nutzung eines alten SAN-Storage-Systems- PanFS- und EMC Legato Networker Client auf

einem Thin Node• Geplant:

- Nutzung des neuen zentralen IBM-Storage-Systems(im Aufbau)

- PanFS- und TSM-Client auf einem IBM Storage Server im Cluster-Netzwerk

Lizenz-Server: Front-End + zentrale (externe) Lizenz-Server

Universität Duisburg-Essen 7.12.2007 33Linux HPC Hybrid Cluster GAUSS

EntwicklungsumgebungEnvironment für Compiler/Libraries und MPI auf allen Hosts: Python-Skript: [/usr/local/bin/]setgausssetgauss [ option … ] ( --bash , --intel10, … )Berücksichtigung der Rechner-Architektur (ARCH: ia64 bzw.em64t bzw. ia32) und der (vor)eingestellten ShellAbweichende Voreinstellungen: export Variable=wert bzw. setenv Variable wertsetgaussBeispiele:export COMP=compiler-suite / export MPI=mpi-derivatexport BITS={32|64} / export CMKL=cmkl-library-typ

Universität Duisburg-Essen 7.12.2007 34Linux HPC Hybrid Cluster GAUSS

Entwicklungsumgebung (2)Entwicklungsumgebung von Intel:

• Compiler: C/C++ und Fortran (10.0.x)• Performance Libraries• VTune Analyzer• Threading Tools• Cluster Toolkit:

- Cluster Math Kernel Library (9.1.x)- Intel-MPI- Trace Analyzer and Collector (früher Vampir)- Cluster OpenMP

Paralleler Debugger: • TotalView für IA64 und EM64T

Universität Duisburg-Essen 7.12.2007 35Linux HPC Hybrid Cluster GAUSS

Universität Duisburg-Essen 7.12.2007 36Linux HPC Hybrid Cluster GAUSS

Universität Duisburg-Essen 7.12.2007 37Linux HPC Hybrid Cluster GAUSS

Entwicklungsumgebung (3)

Kommunikationsbibliotheken (nur 64 Bit):• MPI:

- Default: MPIBULL2 (Basis: MPICH2)- Im Test: Slurm/MVAPICH, Voltaire Linux Gridstack,

Intel-MPI, HP-MPI (derzeit nur Turbomole) - Default: Kommunikation über InfiniBand-Netzwerk

• Shared Memory:- OpenMP- Cluster OpenMP

Mathematische Bibliotheken: BLACS, BLAS, CMKL, Blocksolve95, CLAPACK, CMKL, FFTW, LAPACK, PBLAS, PETSc, ScaLAPACK, SuperLU

Universität Duisburg-Essen 7.12.2007 38Linux HPC Hybrid Cluster GAUSS

Anwendersoftware

Anpassung bzw. Migration eines breiten Spektrums vonAnwendersoftware auf Basis der Anwenderanforderungen

PlattformItanium2 Montecito Xeon Woodcrest

IA64

Datum/ Release/ Stand EM64T IA32

Datum/ Release/ Stand

Seq SMP MPI Seq SMP MPI Seq

Bearbeiter

Freie Software: E-Ressourcen

Kommerzielle Software:Firma/Lizenzen/Kosten/Lizenz-und Execute-Server

Programm

Universität Duisburg-Essen 7.12.2007 39Linux HPC Hybrid Cluster GAUSS

Anwendersoftware (2)Software-Directories: /usr/local/prognameArchitekturabhängige Binaries und Bibliotheken: Itanium2 / IA64 oder Xeon / EM64T = x86_64 bzw. IA32 Lokale Vorhaltung jeweils identischer Anwendersoftware auf allen Execute-Servern mit derselben Architektur (Ausnahme: Software mit Node-Locked-Licenses)Software-Environment:- Identische env-Skripten auf allen Hosts in /usr/local/bin- Berücksichtigung der Rechner-Architektur (ARCH)- source [/usr/local/bin/]progname.{sh|csh}.env (bash/csh)Dokumentation:- Zentrale Vorhaltung von Manual-Pages, User-Guidesund Tutorials auf Panasas-Storage (PanFS)

- Erweiterung der Manual-Suchpfade durch env-Skripten

Universität Duisburg-Essen 7.12.2007 40Linux HPC Hybrid Cluster GAUSS

Universität Duisburg-Essen 7.12.2007 41Linux HPC Hybrid Cluster GAUSS

Anwender-Information und -Erfahrungsaustausch

Web-Seiten zum HPC: http://www.zim.uni-duesseldorf.de/hpchttp://www.zim.uni-duesseldorf.de/service/Dokumente/Flyer_web.pdfhttp://www.zim.uni-duesseldorf.de/hpc/Bilder/HPC-Plakat.pdf

Mailing-Listen:- Info-E-Mails: [email protected] E-Mails an das HPC-Team: [email protected]

Arbeitskreis Wissenschaftliches Rechnen an der HHU (AWR)- Monatliche Treffen - HPC-Forum: Cooperative Workspace auf BSCW-Server

Universität Duisburg-Essen 7.12.2007 42Linux HPC Hybrid Cluster GAUSS

Ausblick

Ausbau und Upgrade des Clusters• Dezember 2007 (+ 96 Cores) :

6 x Bull NovaScale R422mit jeweils - 4 x Xeon Harpertown 5462

Quad Core 2,8 GHz[2 x 6 MB L2-Cache, FSB 1600 MB]

- 16 GB Memory- 2 x160 GB Disk- 2 x InfiniBand-Interface

(integriert)

Universität Duisburg-Essen 7.12.2007 43Linux HPC Hybrid Cluster GAUSS

- Compute-Beschleuniger für Multi-Core-Rechner

- Massively Multi-ThreadedArchitecture

- 19“-Standard-Einschub (1U, PCI-X / x8 oder x16)

- 4 GPUs mit jeweilsCa. 500 GFLOPS Peak Perf.128 CPUs1.5 GB GDDR3

- Single-Precision Floating Point- CUDA-Entwicklungsumgebung

Ausbau und Upgrade des Clusters (2)nVidia Tesla S870 GPU Computing Server

Universität Duisburg-Essen 7.12.2007 44Linux HPC Hybrid Cluster GAUSS

Ausbau und Upgrade des Clusters (3)• Mittelfristig:

10GigE-Adapter im InfiniBand-Switch(z.B. für performante Visualiserung)Erweiterung des Hybrid-Systems um ein Windows-Teilcluster (Basis-Software: Compute Cluster Server, CCS) Server-Housing/-Hosting für Forschergruppen

Weitere Kooperationen: • Ressourcenvereinbarungen mit Forschergruppen• Hybrid-Cluster als Compute-Plattform im

Ressourcenverbund NRW (RV-NRW)

Universität Duisburg-Essen 7.12.2007 45Linux HPC Hybrid Cluster GAUSS

Bull NovaScale Server

Intensive Line3005 Servers http://www.bull.com/catalogue/overview.asp?tmp=nsi-3005&cat=novascale

Universal LineRack-Optimizedhttp://www.bull.com/catalogue/overview.asp?tmp=nsu-rack&cat=novascale

HPC-Optimizedhttp://www.bull.com/catalogue/overview.asp?tmp=nsu-rckhpc&cat=novascale