Linux HPC Hybrid Cluster GAUSS - uni-due.de · Universität Duisburg-Essen 7.12.2007 3Linux HPC...
Transcript of Linux HPC Hybrid Cluster GAUSS - uni-due.de · Universität Duisburg-Essen 7.12.2007 3Linux HPC...
Universität Duisburg-Essen 7.12.2007 1Linux HPC Hybrid Cluster GAUSS
Linux HPC Hybrid Cluster GAUSSUniversität Duisburg-Essen
7.12.2007
Peter SchreiberZIM / Universität Düsseldorfwww.zim.uni-duesseldorf.de/[email protected]
Universität Duisburg-Essen 7.12.2007 2Linux HPC Hybrid Cluster GAUSS
ThemenEinleitungHardware-Ausstattung und System-KonzeptSoftware-Ausstattung und homogenes ManagementAnwender-Information und –ErfahrungsaustauschAusblick
Universität Duisburg-Essen 7.12.2007 3Linux HPC Hybrid Cluster GAUSS
EinleitungZentrales Linux-Cluster der HHU im ZIM : GAUSSMultiple-Purpose-Rechnersystem für ein breites Spektrumvon seriellen und parallelisierte AnwendungenErstes Hybrid-Cluster an deutschen Hochschulen mit Itanium-Montecito- und Xeon-Woodcrest-ServernGewinner der EU-weiten Ausschreibung: Bull(Frankreich, Hauptniederlassung Köln)Lieferung in 3 Stufen (November 2006 bis Juli 2007) [ Erweiterung: Dezember 2007 ]Implementierung von Hardware, Betriebssystem und betriebssystemnaher Software in Kooperation mit Bull Deutschland und Frankreich
Universität Duisburg-Essen 7.12.2007 7Linux HPC Hybrid Cluster GAUSS
Kenndaten des Clusters
Spitzenleistung: 1.928 Gflops[ + 537,6 Gflops ]
Anzahl Cores: 312 [ + 96 Cores ]
Summe Memory: 792 GB[ + 192 GB ]
Summe Disk-Storage: 15 TB[ + 1920 GB ]
Cluster-Storage-System: 15 TB
Universität Duisburg-Essen 7.12.2007 8Linux HPC Hybrid Cluster GAUSS
Derzeitige Systemnutzung• Bereits jetzt hohe Systemauslastung
(Monitoring auf Basis von Ganglia)• Beispiele für aktuelle Einsatzfelder mit hohen
Ressourcen-Anforderungen: - Anglistik: Sprachdatenverarbeitung- Bioinformatik / Biologie: Gensequenzanalyse - Chemie / Pharmazie: Molekülmodellierung- Informatik: Hochleistungsvisualisierung- Laser- und Plasmaphysik: Magnetfeldberechnung- Theoretische Physik: Strömungsdynamik
• Hohe Systemleistung im praktischen Betrieb (Beispiel: Performance bei Chemie-Applikationen im Vergleich mit IBM-SMP-Cluster JUMP in Jülich)
Universität Duisburg-Essen 7.12.2007 9Linux HPC Hybrid Cluster GAUSS
Kooperation mit der Firma BullKooperationsprojekt der HHU mit Bull (Drittmittelprojekt)Beginn Oktober 2007 / Laufzeit zunächst 2 JahreZahlreiche clusterbezogene EntwicklungszieleTeilprojekte- Concepts and Tools for the Homogeneous Management
of Bull Clusters and Bull Hybrid Cluster- Bull Competence and Demo Centre- High Performance Visualization Solutions for
Scientific Computing
Universität Duisburg-Essen 7.12.2007 10Linux HPC Hybrid Cluster GAUSS
Hardware-Ausstattung und System-Konzept
Universität Duisburg-Essen 7.12.2007 12Linux HPC Hybrid Cluster GAUSS
Front Ends / Management NodesCluster aus Front-End und Ausfall-Front-End2 x Bull NovaScale 3045 mit jeweils- 2 / 4 x Itanium2 Montecito 9040 Dual-Core 1,6 GHz [2 x 9 MB L3-Cache] (4 bzw. 8 Cores)
- 32 GB Memory- 600 GB Disk - 10 GigE-Myricom- und InfiniBand-InterfaceZugang derzeit: ssh account@{gauss-1|gauss-2}Ausfall-Konzept: ssh account@gaussLogin von WindowsXP-Rechnern: X-Emulator X-WIN32
Universität Duisburg-Essen 7.12.2007 13Linux HPC Hybrid Cluster GAUSS
Kompilations- und TesthostsJeweils 1 Server für Itanium2 und Xeon:- Itanium2: Nutzung des Ausfall-Front-Ends- Xeon: Ausstattung wie Thin Execute NodeZusätzliche Server als Ausfall-Reserve
Universität Duisburg-Essen 7.12.2007 14Linux HPC Hybrid Cluster GAUSS
Execute NodesWide Nodes: 8 x Bull NovaScale 3045 mit jeweils - 4 x Itanium2 Montecito 9040 Dual-Core 1,6 GHz
[2 x 9 MB L3-Cache] (8 Cores)- 32 GB Memory- 600 GB Disk- InfiniBand-Interface
Thin Nodes: 58 x Bull NovaScale R440 mit jeweils - 2 x Xeon Woodcrest 5160 Dual-Core 3 GHz
[4 MB L2-Cache] (4 Cores)- 8 GB Memory- 160 GB Disk- InfiniBand-Interface- 2 Nodes zusätzlich mit 10 GigE-Myricom-Interface
Universität Duisburg-Essen 7.12.2007 15Linux HPC Hybrid Cluster GAUSS
Verbindungsnetzwerk (Interkonnekt)
Voltaire-InfiniBand-Breitbandnetzwerk (IB) - SDR-Technologie (10 Gbps)- IB-Switch für 96 IB-Adapter - IB-Host-Channel-Adapter für alle Nodes- Hohe Bandbreite und niedrige Latenz:
Ca. 800 bis 900 MB/s und ca. 5 bis 6 µs (Messwerte)GigE-Netzwerk- HP-Switch ProCurve 5412- I/O und Cluster-Management- Anbindung des Panasas-Cluster-Storage
(12 x GigE)
Universität Duisburg-Essen 7.12.2007 16Linux HPC Hybrid Cluster GAUSS
Externe Netzwerkverbindungen10 GigE-Verbindungen- Myricom-Interfaces (Testphase)- Anbindung an Campusnetzwerk - Breitband-Verbindung zum Institut für IT-Management- Backup/Restore derzeit über einen Thin Node als
EMC Legato Networker Client mit Netzwerkverbindung zum Storage-Server
GigE-Verbindungen- Zentrale (externe) Lizenz-Server- Desktop-PC im Cluster-VLAN
Universität Duisburg-Essen 7.12.2007 17Linux HPC Hybrid Cluster GAUSS
Storage-System
Alternativen: Lustre (Support durch Bull) oder Panasas (neu bei Bull)Panasas ActiveStor Parallel Storage Cluster +ActiveScale Operating EnvironmentParallel-NAS / Object Storage Architecture (OSD-Standard)File-basiertes StorageVorteile von block- und file-basierten Storage: fast + sharableSkalierbarkeit mit der Anzahl der ShelfsSingle Name Space + Virtual VolumesPerformanz und Sicherheit: Dynamic Load Balancing / Advanced RAID Features / Improved Reliability
Universität Duisburg-Essen 7.12.2007 18Linux HPC Hybrid Cluster GAUSS
Storage-System (2)
Storage-Cluster aus 3 Storage-Shelfs:- Shelf : 1 DirectoryBlade + 10 Storage Blades- Storage Blade: “Rechner“ mit 2 x 250 GB SATA Disk - 3 x 5 = 15 TB Storage- 3 x 4 = 12 GigE-LinksDurchsatz: - Aggregiert: 1050 MB/s- Gemessen bei gleichzeitigem Zugriff mehrerer Hosts:
Ca. 80 MB/s pro Knoten (schneller als lokal)Paralleles Cluster-Filesystem PanFSMulti-Protokoll-Support: DirectFLOW + NFS + CIFSHandling und Installation:Wesentlich einfacher als z.B. bei Lustre
Universität Duisburg-Essen 7.12.2007 19Linux HPC Hybrid Cluster GAUSS
Hardware für Cluster-ManagementManagement-Knoten gauss0 und gauss1Cluster-Konsole + PC als Reserve-Cluster-Konsole5 KVM-Switches (Power Control / LOM)
AusbaubarkeitVerteilung auf 4 Racks + 1 Rack in ReserveHinreichende Dimensionierung der vorhandenen GigE- und IB-Switches
StromversorgungMax. Leistungsaufnahme: Ca. 50 kWUSV : Wide Nodes + IB- und GigE-Switches + Panasas
KlimatisierungWärmeabgabe: Ca. 170.000 BTU/StdKühlluftzuführung und Warmluftabzugsvorrichtung
Universität Duisburg-Essen 7.12.2007 20Linux HPC Hybrid Cluster GAUSS
Software-Ausstattung und homogenes Management
Universität Duisburg-Essen 7.12.2007 21Linux HPC Hybrid Cluster GAUSS
Betriebssystem und betriebsystemnahe SoftwareBull Advanced Server HPC Edition: - Aktuell: HPC BAS4- Binärkompatibel mit kommerzieller Distribution
RHEL AS (64 Bit)- Im Januar verfügbar: Neue BAS-Version mit vollem
Umfang und Release-Ständen von RHEL5Bull HPC Software Stack:- Software-Umgebung für HPC
Universität Duisburg-Essen 7.12.2007 22Linux HPC Hybrid Cluster GAUSS
Homogenes Cluster-ManagementKonfiguration und Steuerung über Management Nodes Cluster-Datenbank ClusterDB (PostgreSQL)Software-Deployment (ksis)BAS-Kommandos (z.B. nsctrl) und eigene KommandosSystem Accounting: - OpenLDAP- Tools für Accounting-Statistiken (Kooperation)System Monitoring:
- NSMaster / Nagios / Ganglia (Web-GUI, Bull)- Frei zugängliche Ganglia-Monitoring-Web-Page- Plugins für PBSpro (Kooperation)
Universität Duisburg-Essen 7.12.2007 26Linux HPC Hybrid Cluster GAUSS
Homogenes Cluster-Management (2)Workload-Management / Batch-System:
- Bull-Standard: Torque- Von Bull unterstützte kommerzielle Produkte:
PBSpro (Altair) und LSF (Platform Computing)- Installiert: PBSpro
(Erweiterung von OpenPBS / Torque)- Job-Submit : Front-End (qsub / GUI: xpbs)- Kein direktes Login auf Kompilations- oder Execute-
Hosts: Zugang über interaktive Queues
Universität Duisburg-Essen 7.12.2007 28Linux HPC Hybrid Cluster GAUSS
Homogenes Cluster-Management (3)
Panasas-Storage: - Web-GUI für Konfiguration und Monitoring - Clusterweite PanFS-Filesysteme (keine Linux-Quotas)- /home und /scratch :
PanFS-Filesysteme mit User-Volume-Quotas50 GB bzw. 100 GB
Universität Duisburg-Essen 7.12.2007 32Linux HPC Hybrid Cluster GAUSS
Homogenes Cluster-Management (4)
Backup/Restore:• Derzeit:
- Nutzung eines alten SAN-Storage-Systems- PanFS- und EMC Legato Networker Client auf
einem Thin Node• Geplant:
- Nutzung des neuen zentralen IBM-Storage-Systems(im Aufbau)
- PanFS- und TSM-Client auf einem IBM Storage Server im Cluster-Netzwerk
Lizenz-Server: Front-End + zentrale (externe) Lizenz-Server
Universität Duisburg-Essen 7.12.2007 33Linux HPC Hybrid Cluster GAUSS
EntwicklungsumgebungEnvironment für Compiler/Libraries und MPI auf allen Hosts: Python-Skript: [/usr/local/bin/]setgausssetgauss [ option … ] ( --bash , --intel10, … )Berücksichtigung der Rechner-Architektur (ARCH: ia64 bzw.em64t bzw. ia32) und der (vor)eingestellten ShellAbweichende Voreinstellungen: export Variable=wert bzw. setenv Variable wertsetgaussBeispiele:export COMP=compiler-suite / export MPI=mpi-derivatexport BITS={32|64} / export CMKL=cmkl-library-typ
Universität Duisburg-Essen 7.12.2007 34Linux HPC Hybrid Cluster GAUSS
Entwicklungsumgebung (2)Entwicklungsumgebung von Intel:
• Compiler: C/C++ und Fortran (10.0.x)• Performance Libraries• VTune Analyzer• Threading Tools• Cluster Toolkit:
- Cluster Math Kernel Library (9.1.x)- Intel-MPI- Trace Analyzer and Collector (früher Vampir)- Cluster OpenMP
Paralleler Debugger: • TotalView für IA64 und EM64T
Universität Duisburg-Essen 7.12.2007 37Linux HPC Hybrid Cluster GAUSS
Entwicklungsumgebung (3)
Kommunikationsbibliotheken (nur 64 Bit):• MPI:
- Default: MPIBULL2 (Basis: MPICH2)- Im Test: Slurm/MVAPICH, Voltaire Linux Gridstack,
Intel-MPI, HP-MPI (derzeit nur Turbomole) - Default: Kommunikation über InfiniBand-Netzwerk
• Shared Memory:- OpenMP- Cluster OpenMP
Mathematische Bibliotheken: BLACS, BLAS, CMKL, Blocksolve95, CLAPACK, CMKL, FFTW, LAPACK, PBLAS, PETSc, ScaLAPACK, SuperLU
Universität Duisburg-Essen 7.12.2007 38Linux HPC Hybrid Cluster GAUSS
Anwendersoftware
Anpassung bzw. Migration eines breiten Spektrums vonAnwendersoftware auf Basis der Anwenderanforderungen
PlattformItanium2 Montecito Xeon Woodcrest
IA64
Datum/ Release/ Stand EM64T IA32
Datum/ Release/ Stand
Seq SMP MPI Seq SMP MPI Seq
Bearbeiter
Freie Software: E-Ressourcen
Kommerzielle Software:Firma/Lizenzen/Kosten/Lizenz-und Execute-Server
Programm
Universität Duisburg-Essen 7.12.2007 39Linux HPC Hybrid Cluster GAUSS
Anwendersoftware (2)Software-Directories: /usr/local/prognameArchitekturabhängige Binaries und Bibliotheken: Itanium2 / IA64 oder Xeon / EM64T = x86_64 bzw. IA32 Lokale Vorhaltung jeweils identischer Anwendersoftware auf allen Execute-Servern mit derselben Architektur (Ausnahme: Software mit Node-Locked-Licenses)Software-Environment:- Identische env-Skripten auf allen Hosts in /usr/local/bin- Berücksichtigung der Rechner-Architektur (ARCH)- source [/usr/local/bin/]progname.{sh|csh}.env (bash/csh)Dokumentation:- Zentrale Vorhaltung von Manual-Pages, User-Guidesund Tutorials auf Panasas-Storage (PanFS)
- Erweiterung der Manual-Suchpfade durch env-Skripten
Universität Duisburg-Essen 7.12.2007 41Linux HPC Hybrid Cluster GAUSS
Anwender-Information und -Erfahrungsaustausch
Web-Seiten zum HPC: http://www.zim.uni-duesseldorf.de/hpchttp://www.zim.uni-duesseldorf.de/service/Dokumente/Flyer_web.pdfhttp://www.zim.uni-duesseldorf.de/hpc/Bilder/HPC-Plakat.pdf
Mailing-Listen:- Info-E-Mails: [email protected] E-Mails an das HPC-Team: [email protected]
Arbeitskreis Wissenschaftliches Rechnen an der HHU (AWR)- Monatliche Treffen - HPC-Forum: Cooperative Workspace auf BSCW-Server
Universität Duisburg-Essen 7.12.2007 42Linux HPC Hybrid Cluster GAUSS
Ausblick
Ausbau und Upgrade des Clusters• Dezember 2007 (+ 96 Cores) :
6 x Bull NovaScale R422mit jeweils - 4 x Xeon Harpertown 5462
Quad Core 2,8 GHz[2 x 6 MB L2-Cache, FSB 1600 MB]
- 16 GB Memory- 2 x160 GB Disk- 2 x InfiniBand-Interface
(integriert)
Universität Duisburg-Essen 7.12.2007 43Linux HPC Hybrid Cluster GAUSS
- Compute-Beschleuniger für Multi-Core-Rechner
- Massively Multi-ThreadedArchitecture
- 19“-Standard-Einschub (1U, PCI-X / x8 oder x16)
- 4 GPUs mit jeweilsCa. 500 GFLOPS Peak Perf.128 CPUs1.5 GB GDDR3
- Single-Precision Floating Point- CUDA-Entwicklungsumgebung
Ausbau und Upgrade des Clusters (2)nVidia Tesla S870 GPU Computing Server
Universität Duisburg-Essen 7.12.2007 44Linux HPC Hybrid Cluster GAUSS
Ausbau und Upgrade des Clusters (3)• Mittelfristig:
10GigE-Adapter im InfiniBand-Switch(z.B. für performante Visualiserung)Erweiterung des Hybrid-Systems um ein Windows-Teilcluster (Basis-Software: Compute Cluster Server, CCS) Server-Housing/-Hosting für Forschergruppen
Weitere Kooperationen: • Ressourcenvereinbarungen mit Forschergruppen• Hybrid-Cluster als Compute-Plattform im
Ressourcenverbund NRW (RV-NRW)
Universität Duisburg-Essen 7.12.2007 45Linux HPC Hybrid Cluster GAUSS
Bull NovaScale Server
Intensive Line3005 Servers http://www.bull.com/catalogue/overview.asp?tmp=nsi-3005&cat=novascale
Universal LineRack-Optimizedhttp://www.bull.com/catalogue/overview.asp?tmp=nsu-rack&cat=novascale
HPC-Optimizedhttp://www.bull.com/catalogue/overview.asp?tmp=nsu-rckhpc&cat=novascale