Dünnbesetzte Eigenwertlöser auf Heterogenen Supercomputern

Dr. Jonas Thies DLR Simulations- und Softwaretechnik Abteilung Verteilte Systeme und Komponentensoftware Arbeitsgruppe High Performance Computing

www.DLR.de • Folie 1 > T-Systems HPCn Workshop SC 2015 > Jonas Thies • sparse solvers on supercomputers > 06.05.2015

Wissenschaftliche Einbettung

DFG Schwerpunktprogramm Software for Exascale Computing Projekt ESSEX Equipping Sparse Solvers for the Exascale

Beteiligte Universitäten RRZE Erlangen (Prof. Wellein, Hager)

Wuppertal, Numerik (Prof. Lang) Greifswald, Physik (Prof. Fehske)

Laufzeit: 2013-2015 Folgeantrag gestellt

Internationale Kontakte

Sandia (Trilinos Projekt) Tenessee (Dongarra)

Japan: Tsukuba, Tokyo Niederlande: Groningen, Utrecht

Software wird unter einer OpenSource Lizenz zur Verfügung gestellt

Übersicht

• Aktuelle Herausforderungen für High-End HPC

• Eigenwertprobleme: Anwendungen und Algorithmen

• Technologie: MPI+X, Fehlertoleranz und Nodelevel Performance

• Software Entwicklungen: GHOST und PHIST

• Fallbeispiele und Zusammenfassung

“Aggressive Strawman” (2007) DARPA (The Defense Advanced Research Projects Agency of the U.S)

Characteristic Flops – peak (PF) 997 Microprocessors 223,872 Cores/microprocessor 742 Cache (TB) 37.2 DRAM (PB) 3.58 Total power (MW) 67.7 Memory bandwidth / Flops 0.0025 Network bandwidth / Flops 0.0008

Hypothetisches Exascale-System

170 Millionen Kerne!

Schon heutige Workstations sind 100-fach parallel

• Beispiel: Intel® Haswell Architektur 1-2 CPU Sockel (Sockets) je 18 Kerne (Cores) Hyperthreading, 2 Threads/Core Je 8 Operationen gleichzeitig (SIMD, FMA)

• Grafikkarte (tausende Threads) oft verfügbar aber selten genutzt

FAZIT: Die hier vorgestellte Software ist nicht nur für das High-End Computing relevant sondern kann vielfältig eingesetzt werden

Beschleunigerhardware wird zum „HPC Main Stream“

Nvidia® GPUs Intel® Xeon Phi

TOP500 Entwicklung

• Hohe Parallelität und Flop Raten • Experten für die Portierung erforderlich

(z.B. CUDA Kenntnisse) • höhere Speicherbandbreite • neuer Bottleneck CPU→Device

Die häufigsten Vertreter:

Software-Herausforderungen

Probleme

• Nur wenige Algorithmen sind für extreme Parallelität geeignet. • Bestehende Anwendungssoftware wurde für moderat parallele

Systeme entwickelt (üblicherweise „MPI flat“)

Peta- bis Exascale erfordert

• Extrem skalierbare Algorithmen • Neue Konzepte für

• Ausfallsicherheit (Fault Tolerance) • Programmiermodelle • Software Engineering (Methoden und Tools)

Übersicht

• Eigenwertprobleme : Anwendungen und Algorithmen

• Technologie: MPI+X, Fehlertoleranz und Nodelevel Performance

• Eine Matrix A beschreibt einen Zustandsübergang

Dünnbesetzte Matrizen

• Dünnbesetzte Matrizen haben

„so wenige nicht-Null Einträge, daß es sich

lohnt, diese Eigenschaft auszunutzen“

Spin-Kette von N Elektronen (2N mögliche Zustände)

Beispiel Quantenmechanik

Lineare Eigenwertprobleme

• Eine Matrix A beschreibt einen Zustandsübergang • ihre Eigenwerte 𝛌𝛌 und Eigenvektoren x beschreiben die dynamischen

Eigenschaften eines Systems:

𝐀𝐀x = 𝜆𝜆x

Eigenwerte und –vektoren sind wertvoll in der Praxis, z.B. Energieniveaus von Quantensystemen:

𝐇𝐇𝜓𝜓 = 𝐸𝐸 𝜓𝜓 (Schrödinger Gleichung)

Phys. Chemie, Elektronen- struktur

Anwendungen dünnbesetzter Eigenwertprobleme

Stromnetze Vibrationen

Stabilitäts- analyse (z.B. CFD)

newscenter.lbl.gov/2014/12/19/better-electrolyte-for-lithium-ion-batteries/

www.ssd-zt.at/en/civil-engineering/bridge-constructions.php

www.mhhe.com/engcs/electrical/hkd/tutorials/Tut9-1.htm

idac.co.uk/products/products/cfx.htm

Wie berechnet man Eigenwerte?

• Eigen-Information wird aus Matrix-Vektor Operationen extrahiert

Beispiel: Krylov Methoden konstruieren eine orthogonale Basis für die „Power Vektoren“, z.B. Lanczos Algorithmus

Grundoperation: Dünnbesetztes Matrix-Vektor Produkt

18/02/2015 | Large-Scale CPU-GPU KPM | Moritz Kreutzer | COSSE Workshop

Dominante Operation in vielen iterativen Methoden Speicherbedarf: Nnz Elemente der Matrix und Vektoren x,y der Länge Nr “Sparse”: Nnz ~ Nr Speichergebundene Operation

Benötigt i.A. indirekte Adressierung bzw. Kommunikation

= + • Nr

Algorithmen im ESSEX Projekt

Simulations- und Softwaretechnik

Übersicht

• Technologie: MPI+X, Fehlertoleranz, Nodelevel Performance

• MPI Flat + Off-loading

• Runtime (z.B. MAGMA, OmpSs)

• Dynamisches Scheduling von kleinen Tasks (gutes Load Balancing)

• Kokkos (Trilinos)

• Hoher Grad an Abstraktion (C++11)

• MPI+X Ansatz in GHOST (ESSEX) • X: OpenMP, CUDA, SIMD Intrinsics, z.B. AVX • Tasking für größere asynchrone Aufgaben

(funktionale Parallelität) • Experten implementieren benötigte Kernel

Programmiermodelle für heterogene HPC Systeme

Bei über 100 000 Knoten mit verschiedenen Komponenten (CPU, GPU, Bus, Speicher, …) ist die mittlere Laufzeit bis zu einem Ausfall (mean time to failure) oft kürzer als die Laufzeit einer großen Simulation. Den komplettten Job neu zu starten kostet viel Zeit, selbst wenn Zwischenergebnisse gespeichert wurden, von denen aus “weitergerechnet” werden kann.

Hardware-Defekte überstehen

Overhead für Recovery ca 18 Sek. (+ zu wiederholende Berechnungen)

• Anwendung schreibt asynchron „Checkpoints“ (CP)

• auf einer lokalen Platte • auf dem Nachbarknoten

• Dedizierter Prozess führt „Health

Checks” (HC) aller Knoten durch (GASPI/GPI statt MPI)

• Wenn ein Knoten ausfällt:

• Pool von Ersatzprozessen • „Rollback“ zum letzten

Checkpoint

• Daten nutzen, während sie im L1 Cache sind • Beispiel: berechne (mit x,y,z großen Vektoren und A einer Matrix)

𝐳𝐳 = 𝐲𝐲 + 𝜶𝜶𝐀𝐀𝐀𝐀, 𝒄𝒄𝟏𝟏 = 𝐀𝐀 𝟐𝟐 , 𝒄𝒄𝟐𝟐 = 𝐀𝐀𝐀𝐀 𝟐𝟐 Mit einzelnen Kerneln (z.B. sparse BLAS)

𝐭𝐭 = 𝐀𝐀x, z = y + 𝛼𝛼t, 𝑐𝑐1 = x 2 , 𝑐𝑐2 = t 2

• mindestens 5 Vektoren werden aus dem Speicher geladen

• In einer einzigen (komplexeren) Funktion: • mindestens 2 Vektoren werden geladen

Optimierung 1: Kernel Fusion

Optimierung 2: Blockvektor Operationen

• Jacobi-Davidson: spMVM gefolgt von Projektion, (I − 𝑄𝑄𝑄𝑄𝑇𝑇)(𝐀𝐀 − 𝜎𝜎I)x • prinzipiell bessere Datenlokalität wenn x mehrere Spalten hat (SpMMVM) • Weniger Synchronisationspunkte/Nachrichten

Tpetra (Trilinos) GHOST (Naiv) GHOST (row-major)

Beispiel: KPM Algorithmus auf Heterogenem Knoten

18/02/2015 | Large-Scale CPU-GPU KPM | Moritz Kreutzer | COSSE Workshop

SNB: Intel Xeon Sandy Bridge, K20X: Nvidia Tesla K20X Komplexe (Double Precision) Matrix/Vektoren (topologischer Isolator)

Performance Engineering

• Testen der Implementation in erster Linie gegen die Theorie

• Für Speichergebundene Operationen: Roofline Modell

• SpMVM: unregelmäßiger Speicherzugriff

• Parametrisiertes Modell • Performance Counter nutzen

(z.B. LIKWID Tool) um tatsächliches Datenvolumen zu messen

22 Optimizing the Performance of the KPM on Heterogeneous Systems | M. Kreutzer | Exascale15

Ω = 𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴 𝑑𝑑𝐴𝐴𝐴𝐴𝐴𝐴 𝐴𝐴𝑡𝑡𝐴𝐴𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑀𝑀𝑀𝑀𝑡𝑡𝑀𝑀𝑀𝑀𝐴𝐴𝑀𝑀 𝑑𝑑𝐴𝐴𝐴𝐴𝐴𝐴 𝐴𝐴𝑡𝑡𝐴𝐴𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡

Woher die Abnahme?

Roofline Analyse für spMMVM

Übersicht

Software aus dem ESSEX Projekt

General, Hybrid, and Optimized Sparse Toolkit

• MPI + OpenMP + SIMD + CUDA • Dünnbesetzte Matrix-(Block-)Vektor-Multiplikation • Dichtbesetzte Block-Vektoroperationen • (Einfache) Task-Queue für funktionale Parallelität • Asychrones Checkpoint-Restart

Status: Experimentell (für „HPC affine“ C Programmierer)

http://bitbucket.org/essex/ghost

BSD Lizenz

Software aus dem ESSEX Projekt

PHIST Pipelined Hybrid-parallel Iterative Solver Toolkit • Iterative Löser für dünnbesetzte Matrizen

• Eigenwertprobleme: Jacobi-Davidson, FEAST • Lineare Gleichungssysteme (LGS): GMRES, MINRES, CARP-CG

• Einfaches funktionales Interface (C, Fortran, Python) • Pipelining: Algorithmen für optimale Performance formuliert • verschiedene Möglichkeiten der Einbindung in Anwendungen

Status: umfangreiches Testframework, teils experimentell

http://bitbucket.org/essex/phist

BSD Lizenz

Wahl der “Kernel Bibliothek” )nur Benötigte Flexibilität

gering mittel hoch

Einbindung von PHIST in Ihre Anwendung

Kein einfacher Zugriff auf Matrix Elemente

PHIST „builtin“ Nur CPU F‘03+OpenMP CRS Format

Versch. Arch. Große C++ Code Base

Eigene Datenstrukturen Adapter ca 1000 Zeilen Code

Hardware-Nähe

Zweiseitige Interoperabilität von PHIST und Trilinos

ESSEX Projekt

-------------------------------- PHIST builtin

Projekt

Anasazi (Eigenwerte) Belos (LGS)

--------------------------------- Epetra Tpetra

Iterative Löser ------------------------- Grundoperationen

C Wrapper

“Can Use”

Übersicht

CARP-CG: Schwache Skalierung bis 5.1Mrd Unbekannte • Zwei Varianten einer „row

projection“ Methode • Variante OpenMP nicht voll

optimiert, aber offensichtlich speicher-effizienter

• Anwendung: „schwierige“ lineare Gleichungsysteme, z.B.

• Helmholtz Gleichungen • Konvektionsdominierte

Strömungen • Innere Eigenwertprobleme • Least Squares Probleme

Beispiel: Graphene

Spinkette 3D Konvektion-Diffusion

Block Jacobi-Davidson, Starke Skalierung

KPM, Skalierung auf heterogenem System

CRAY XC30 (Piz Daint*)

• 5272 Rechenknoten mit jeweils

• 1x 8-Kern Intel Sandy Bridge

• 1x Nvidia Kepler K20x

• Peak: 7.8 Pflop/s • System mit höchster

Performanz in Europa

*Thanks to CSCS/O. Schenk/T. Schulthess for granting access and compute time

Zusammenfassung

• Skalierbarkeit fängt nicht erst bei einer CPU an • ---------------und PHIST implementieren ein pragmatisches,

Hardware-nahes Programmiermodell für heterogene Systeme

• Software mittels Performance Modellen verifiziert

• erhöhte Rechenintensität durch Blocking und Kernel Fusion

• ermöglicht ausfallsichere Anwendungen

• OpenSource: http://bitbucket.org/essex

Vielen Dank für ihre Aufmerksamkeit!

www.DLR.de • Folie 33

Fragen? Dr. Jonas Thies Simulations- und Softwaretechnik Abt. Verteilte Systeme und Komponentensoftware Jonas.Thies@dlr.de http://www.DLR.de/sc Dank an

Melven Röhrig-Zöllner (DLR) Moritz Kreutzer und Faisal Shahzad (RRZE)

> T-Systems HPCn Workshop SC 2015 > Jonas Thies • sparse solvers on supercomputers > 06.05.2015

Dünnbesetzte Eigenwertlöser auf Heterogenen Supercomputern

Documents

Transcript of Dünnbesetzte Eigenwertlöser auf Heterogenen Supercomputern

SEP: Partner Summit 2016 am 22. und 23. Februar in Tegernsee...heterogenen Umgebungen. So stellt der Partner sc synergy die Backup as a Service-Lösung auf Basis von SEP sesam vor.

Benutzermanagement in heterogenen Umgebungen Jörg Schanko Technologieberater Forschung & Lehre Microsoft Deutschland GmbH.

eCATT & OpenSource - Automatisierter Test in heterogenen Systemlandschaften

© ISY Informationssysteme GmbHSeite: 1 Funktionsbeschreibung ISY-Connect stellt eine Kommunikationsschnittstelle dar, die es ermöglicht, in heterogenen.

DFG – Schwerpunktprogramm „Flexibilisierungspotenziale bei heterogenen Arbeitsmärkten“

SAN / NAS Integration im heterogenen Netzwerkumfeld mittels Samba 3 und NFSv3

Architekturkonzept und Designaspekte einer …elib.suub.uni-bremen.de/publications/dissertations/E-Diss835_dis... · matik der gewachsenen heterogenen Struktur der ... Im zweiten

Wie man Mikroben auf Reisen schickt - Mohr Siebeck...Vorwort Folgt man den Spuren bakteriologischen Wissens um 1900, landet man in thema-tisch wie regional höchst heterogenen Gefilden.

Mobile Nutzung bibliothekarischer Services · Mobile Nutzung bibliothekarischer Services Anforderungen an Bibliotheken mit heterogenen Zielgruppen – Explorative Untersuchung am

Das Information Warehouse Die Stärken eines zentralen dispositiven Information-Warehouse als informative Kernkomponente in einer heterogenen operativen.

Service Management in einer heterogenen Umgebung

Benutzerunterstützung in verteilten heterogenen digitalen Bibliotheken Bethina Schmitt Stand der Arbeit, 25.3.99.

Quantencomputer – Kein Problem ist zu komplex · Quantencomputer – Kein Problem ist zu komplex Immer wieder hören wir von Supercomputern, die unglaublich komplexe Probleme mit

Konversion von Ethanol zu Butanol an heterogenen …...Konversion von Ethanol zu Butanol an heterogenen Katalysatoren Von der Fakultät für Lebenswissenschaften der Technischen Universität

Individuelle Förderung in heterogenen Lerngruppen · Individuelle Förderung in heterogenen Lerngruppen Handreichung zur Unterrichtsentwicklung auf der Basis kooperativen Lernens

Lernen in heterogenen Lerngruppen der Neuen Grundschule mit Schwerpunkt Sachunterricht Der Sachunterricht ist gekennzeichnet von einer großen Vielfalt.

KUNST 1 und 2 Klasse · Instrumente interaktiv nutzen In heterogenen Gruppen funktionieren 1A Die Fähigkeit auf interaktive Weise die Sprache, Symbole und Texte anzuwenden. 2A 1B

2019 29.06. · 10 Vorlesungen nobelstraße 19 (C/d 9/10) rühle-Saal Simulation auf Supercomputern – wunderwerke der technik und des Geistes Prof. Dr.-Ing. Michael M. Resch,

Charakterisierung der aktiven Zentren von heterogenen Katalysatoren

Öffentlich Private Partnerschaften unter Berücksichtigung ... · zugleich sehr heterogenen Landschaft von Kooperationsprojekten zwischen Staat und privatem Sektor als umfassende