HPC-Systeme HPC und Storage

41
Prof. Dr. Volker Gülzow Dr. Yves Kemp SS 2017 HPC-Systeme HPC und Storage

Transcript of HPC-Systeme HPC und Storage

Page 1: HPC-Systeme HPC und Storage

Prof.Dr.VolkerGülzowDr.YvesKemp

SS2017

HPC-SystemeHPCundStorage

Page 2: HPC-Systeme HPC und Storage

StorageundStorage-SystemefürHPC

• Wennman„Computing“inHPCengauslegt,dannbetrifftdiesnurdas“Rechnen“• HäufigwirdStorageundStorage-NutzunginHPCVorlesungen(undauchPlanungen...)stiefmütterlichbehandelt• FürdenerfolgreichenAufbaueineskomplettenHPC-SystemsistallerdingsauchvernünftigerStoragenotwendig• FürdieerfolgreicheNutzungvonHPC-SystemensindeinigeKenntnisseüberStorage-SystemeundStorage-Nutzungwichtig

Page 3: HPC-Systeme HPC und Storage

ZweiSichtenaufStorage:

http://cinemalacrum.blogspot.de/2011/08/top-ten-thursday-silent-films.htmlhttp://selfstorageindavis.com

Admin-SichtaufStorageSchwerpunktdieserVorlesung

Nutzer-SichtaufStorageSchwerpunktderVorlesungundÜbungnächste Woche

Page 4: HPC-Systeme HPC und Storage

Storage!=Data

• Mit„Data“und„DataAccess“wirdimHPCVorlesungenhäufigDatenundDatenzugrif im/aufArbeitsspeicheroderL1/2/3CachesderCPUsgemeint.• DieFestplatteimServereinesHPC-Workernode spielttypscherweiseeineuntergeordneteRolle

• UnterStorageversteheichinderVorlesunggrosser,zentralerStorage

Page 5: HPC-Systeme HPC und Storage

AnwendungsfallvonStorageimHPC

• Input-DatenfürSimulation(oderAnalyse)• LagerungvonOutput-DateneinerSimulation(oderAnalyse)• Projekt-DatenfürZwischenschritte• Nutzer-“$HOME“

Page 6: HPC-Systeme HPC und Storage

AnwendungsfallvonStorageimHPC

• Checkpointing:SnapshotderaktuellenBerechnungaufStoragezuschreiben,umimFalleinesteilweisenoderganzenAusfallsvomletztenSnapshotausweiterzurechnen

Page 7: HPC-Systeme HPC und Storage

Storage&IO

• Inderwissenschaftlichen Communitysteigen dieAnforderungen anIOkontinuierlich• IOist ein Bottleneckfür viele Nutzer• Erforderlicher Storage-Platz mussmitSystem-Speicher(RAM)skalieren• ParallelesIOistfürgrosse Nutzerunerlässlich• Typischegrosse HPCClusterhabenmehre10PBStorage

DieseundnächsteFolienmitMaterialvonRichardGerber(NERSC)https://www.olcf.ornl.gov/wp-content/uploads/2013/05/OLCF-Data-Intro-IO-Gerber-FINAL.pdf

Page 8: HPC-Systeme HPC und Storage

ZweiSichtenaufStorage:

http://cinemalacrum.blogspot.de/2011/08/top-ten-thursday-silent-films.htmlhttp://selfstorageindavis.com

Admin:Daten?Ja,dasZeugswasvoneinemWorker-NodeaufeinenStorage-ServerTransferiertwirdunddortaufSpeichermedienliegt

Nutzer:Daten?Ja,AbbildungmeinesSystemsimCode:GridZellen,Teilchen,...

Page 9: HPC-Systeme HPC und Storage

Relationship:It‘s complicated

• NutzermüssenihreIOMusterverstehen- undggf anpassen– umgutePerformancezuerreichen• AdminsbrauchenmöglichstdetailliertesWissenüberdieAnforderungenderNutzerumStorage-Systemezudesignenundzutunen• MancheskanndurchspezialisierteIO-Librariesabgefedertwerden

Page 10: HPC-Systeme HPC und Storage

IOHierachie

Applikation

High-LevelIO-Library

Zwischen-Schicht(zB MPIIO)

ClusterFileSystem

SpeicherServer/Medium

Page 11: HPC-Systeme HPC und Storage

WelcheSpeicherMedien?

• Sehrschnell:Solid-State• FLASH/3D-Xpoint(neueTechnologievonIntel&Micron)/...• Sehrschnell,sehrteuer,vergleichsweisewenigKapazität

• SchnelleaberkleinerotierendePlatten• SAS,typischerweise2.5“mit10kRPModer15kRPM• 600Gbyte – 1.8TBaktuelltypischeKapzitäten

• Nearline-SASPlatten• NL-SAS,3.5“mit7.2kRPM• 6-10Tbyte aktuelltypischeKapazitäten

• Bänder• Langsam,gross,nurstreaming IO,unhandlich,günstig(jenachRechnung)

Page 12: HPC-Systeme HPC und Storage

WelcheSpeicherMedien?

• Sehrschnell:Solid-State• InStorage-SystemenzB alsBurst-Buffer,CacheoderMeta-Daten-Speicherbenutzt

• SchnelleaberkleinerotierendePlatten• NutzungnimmtabzugunstenvonSolid-State

• Nearline-SASPlatten• StellentypischerweisedenGrossteil desPlattenplatzes

• Bänder• EventuellArchivoderBackup.TypischerweisenichtdirektausdemFilesystemadressierbar

Page 13: HPC-Systeme HPC und Storage

EineFestplattemachtnochkeinStorage-System

• <milmmädchenrechnung>• Um10Pbyte zuspeichernbrauchtmanaktuell1000x10Tbyte Platten• NL-SASPlattehatMTBFvon1.2Mio Stunden...1.2Mio h/1000/24h=EinFehleralle50Tage

• Oder:NL-SASPlattehatBitErrorRatevon1/10^15bits ~=110TByte.10Pbyte einmalvollschreiben:~100BitFehler.

• Manbrauchtalso• FehlerkorrekturenundRedundanzen• Etwaswas1000Einzelschicksaleinwenige,grössere Blöckegruppiert

• (InWirklichkeitdeutlichmehr„Einzelschicksale“)

Page 14: HPC-Systeme HPC und Storage

RAIDundErasure Coding

• RAID:RedundantArrayof In[expensive|dependent]Disks• HeuteTypischerweiseRAID-6:n+2Parity• RealisierttypischerweiseüberHardware-RAIDController

• Erasure Coding• RAID-6einespezielleFormvonErasure Coding (ggf inHardware)• AktuellvielEntwicklungumErasure Coding indieFilesystemezubekommen–ohneHW-Controller!

• EinigekommerzielleProduktesetztendiesum,OpenSource VariantennochindenKinderschuhen

Page 15: HPC-Systeme HPC und Storage

Latenzen:ZeitzumLesendeserstenByte

RichardGerber

Page 16: HPC-Systeme HPC und Storage

Bandbreiten

• WieschnellkönnenDatengestreamt werdenvon/zuPlatte?• N*10bisN*100GByte/ssindheutetypischfürgrosse Systeme(N*10PB)• Aggregiert!Also„vieleWNsredenmitvielenServern“• Single-StreamistbegrenztvonNetzwerk-interfaceundggf Speichermedium

• HängtallerdingsvonderApplikationab:• MaximaleBandbreiteistnurabrufbarwenngrosse Blöckegelesenwerden,undwenndiesimStreaming-Moduspassiert!

Page 17: HPC-Systeme HPC und Storage

Latenzen undBandbreiten-Optimierung• Schreiben:Buffering

• SchnellerSpeichersammeltDatenundschreibtsiedann(ggf.streamingmodus)auflangsamerenSpeicher

• Lesen:Caching• EinganzerBlockwirdvomlangsamenindenschnellenSpeichergelesen,auchwennnureinTeildesBlocksangefragtwurde.DerBlockbleibterstmalimCache

• UnterschiedlicheOrte:InderNähederCPU,imWorker-Node,dedizierterIO-Node,spezialisierteStorage-Server,zusätzlichePlatteinStorageServer,imRAID-ControlleroderaufderPlatteselber

Page 18: HPC-Systeme HPC und Storage

Local /GlobalausSichtdesWorker-Node• Local Storage:DieFestplatte(on-board)

• Altbekannt:FürOSund/tmp.Uninteressant• Aber:EventuellspeziellerIO-NodemitschnellemCache(SSD).„Local Read-Only Cache“(LROCimIBM-GPFSJargon)

• Cluster-LokalerStorage:• NetworkAttached ClusterFileSystem• NurimdediziertenClusterInterconnect(schnell)verfügbar,typischerweisenurfüreinHPCSystem

• GlobalerStorage:• ImCampusNetzwerk(odersogarweltweit)verfügbar.• ZBAusgangsortfürRohdatenoderpermanenterSpeicherort

Page 19: HPC-Systeme HPC und Storage

VerschiedeneArtenvonClustered Storage

• Networkattachedstorage• Shared-diskFS• Verteiltes FS

• https://en.wikipedia.org/wiki/Clustered_file_system

Page 20: HPC-Systeme HPC und Storage

Networkattached storage

• TypischerweiseNFS(NetworkFileSystem)Protokoll• CIFS/SMBoderAnderesindimUNIX-lastigen HPCUmfeldeigentlichnichtzufinden

• NFSistinLinuxquasiüberallzufinden• Kernel-NFSServer,NFSClientModul...• Mounten isttrivial:mount –tnfs server:/export/path /local/path

• VieleHerstellerbietenNFSAppliances an

Page 21: HPC-Systeme HPC und Storage

NFSClient<->ServerKommunikation

http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.25.7841 (RusselSandberg)dasPaperstammtvon1986J

Page 22: HPC-Systeme HPC und Storage

• DieKommunikationgehtimmerzwischenClientundServer• MehrPlattenplatzimServer

• Bottleneck:Netzwerkanbinung Server• MehrereServer

• Bandbreiten-Skalierungüber#Server• UnterschiedlicheNamespaces

• /mnt/nfs/server1• ...• /mnt/nfs/servern

Skalierung?NFSv3undNFSv4.0

Page 23: HPC-Systeme HPC und Storage

SkalierunginNFSv3undNFSv4.0,Beispiel

EinzelneDisks/StorageServer

ClusterFileSystem

S1

S2

...

SN

C 1C 1C 1Client

C 1C 1C 1Client

C 1C 1C 1Client

C 1C 1C 1Client

Page 24: HPC-Systeme HPC und Storage

SkalierungmittelsNFSv4.1/pNFSMeta-DataServer

DataServer1

DataServer2

DataServer3

DataServer4

C 1C 1C 1Client

C 1C 1C 1Client

C 1C 1C 1Client

C 1C 1C 1Client

NFSv4.1mount

1)Requestfile n

2)Ask DataServer3

3)Requestfile n

4)Serving file n

Page 25: HPC-Systeme HPC und Storage

NFSv4.1/pNFS vergleichsweiseneu

• Einigegrosse Storage-HerstellerunterstützenNFSv4.1/pNFS• ServerhabennochnichtdenReifegradvongrossen NFSv3undNFSv4.0Appliances• ClientCodenochnichtsoausgereiftwiev3undv4.0• HerstellerundNutzersindzögerlich

• DESYwarmitNFSv4.1/pNFS ServerindCache Vorreiter• DESYhatca 1000ClientimEinsatzdieNFSv4.1/pNFS mounten

• AllerdingsnichtimHPCUmfeldJ

Page 26: HPC-Systeme HPC und Storage

NFSSecurity@HPC

Security?

Page 27: HPC-Systeme HPC und Storage

NFSSecurity

• OK,esgibtKerberised NFS(mitNFSv4)• MachtnurkeinerimRZ-Bereich(ichkennekeinen...)

• Werdarfmounten?• ServerhateineListevonIPAdressen/Host-NamenvonClienten diemountendürfen

• HPCCluster:IPAdressenundHostNamensindsicher™,undkönnennichtgefaked werden

• WerdarfaufDateneinesMountszugreifen?• UID/GIDbasierendeSecurity.ÜblicherweisesimpleUNIX-ACLs(User/Group/Others)

• HPCCluster:UID/GIDsindsicher™,undkönnennichtgefaked/missbrauchtwerden

Page 28: HPC-Systeme HPC und Storage

„Echte“ClusterFileSysteme

• AmDESYimEinsatz• Lustre:HPCStorageamStandortDESY/Zeuthen• BeeGFS:GünstigerProjekt-SpaceimHPCClusterDESY/HH• GPFS(JetztSpectrum Scale):Online-Datennahme derneuerenDESYExperimente,schnelleAnalyse

Page 29: HPC-Systeme HPC und Storage

GenerischesSchemavonCluster-File-System

StorageServer

StorageServerStorageServer

Meta-DataServerMeta-DataServer

ManagementServer

FastClusterInterconnect(zB InfiniBand)

WorkerNode

Network

KernelModule

KernelVFS

WorkerNode

Network

KernelModule

KernelVFS

WorkerNode

Network

KernelModule

KernelVFS

IONode

Network

KernelModule

KernelVFS

Cache/

Buffer

Page 30: HPC-Systeme HPC und Storage

Oderauch:

StorageServer

StorageServerStorageServer

Meta-DataServerMeta-DataServer

ManagementServer

FastInterconnect(zB InfiniBand)

WorkerNode

Network

KernelModule

KernelVFS

WorkerNode

Network

KernelModule

KernelVFS

WorkerNode

Network

KernelModule

KernelVFS

IONode

Network

KernelModule

KernelVFS

Cache/

Buffer

Specialized ClusterInterconnect(zB CrayAries)

Page 31: HPC-Systeme HPC und Storage

http://www.nersc.gov/users/computational-systems/cori/burst-buffer/burst-buffer/

Page 32: HPC-Systeme HPC und Storage

BurstBuffer

• NetzwerktopologischsehrnaheandenCompute-Nodes• DadurchhoheBandbreite,zB CORI@NERSC

• „approximately 1.7TB/second of peak I/Operformance with 28MIOPs,andabout 1.8PBof storage“

• http://www.nersc.gov/users/computational-systems/cori/burst-buffer/burst-buffer/

• WichtigzB fürSnapshots/Checkpointing• Das(koordinierte)SchreibenderSnapshotsaufdieBurstBuffer gehtsehrschnell

• WenndieBerechnungwiederangelaufenistwerdendieDatenvomBurstBuffer aufdeneigentlichenStoragegeschrieben.Diesgeschiehtdeutlichlangsamer

Page 33: HPC-Systeme HPC und Storage

EinigeProdukteimDetail:BeeGFS

• Highperformanceparallelfilesystemdeveloped2007fromCompetenceCenterforHigh-PerformanceComputing,Fraunhofer ITWM• Aim:ReplaceGPFSandLustrebysomethingeasytodeploy,config andadminister• OriginallynamedFhGFS itwasrenamedin2014toallowacommercialspinoff

• DevelopmentisdrivenbyFraunhofer,thecompanyThinkparQ offerssupport.• TheSoftwareisfreeofcharge• Licenseandcosts

• TheclientkernelmoduleisundertheGPL• StorageandManagementDaemons,currentlyclosedsource,butguaranteedinthecontextoftheDEEP-ERprojecttobecomeopen-source

• Commercialsupportoffered:Annuallicenseperstoragetarget

Page 34: HPC-Systeme HPC und Storage

BeeGFS Facts• DistributedObjectandMetadata

• Aggregatedthroughputforobjectdata (usingstriping)• Loadbalancing forMetadata> Linux(only)based

• PackedforforRHEL,Debian,Suse• Supportx86_64andXeonPHI (proofofconceptforARM)

• Serverrunsinuserspace,andusesupportedfilesystemoftheOS• ObjectStoretestedwithxfs,ext4andzfs• MetadataStoredonext4filessystem (useextendedAttributes)

• Clientsarekernelmodules• Supportallkernelsfrom2.6.16tolatestvanilla,noKernelPatch• Automaticrebuildafterkernelupdate

• SupportnativeInfiniband/1GE/10GE/40GE• BeeGFS isimprovingfast

• Alreadythere:RaidLevel,HSMintegration• Upcoming:HA,Dataintegrity,erasurecoding

Page 35: HPC-Systeme HPC und Storage

GPFSBasics• GeneralParallelFileSystem

nmatureIBMproductgenerallyavailableformorethen10years(GPFShasbeen• availableonAIXsince1998andLinuxsince2001)• n WorksonAIX,Linuxand(surprise!)Windows• n Adaptabletomanyuserenvironmentsbysupportingawiderangeofbasicconfigurationsanddisktechnologies

• n Providessafe,highBWaccessusingthePOSIXI/OAPI• n Basicfeatures:POSIXAPI,journaling• n Providesnon-POSIXadvancedfeatures

• n e.g.,DMAPI,data-shipping,multipleaccesshints(alsousedbyMPI-IO)• n ILM,integratedwithtape,disasterrecovery,SNMP,snapshots,robustNFSsupport

• n Providesgoodperformanceforlargevolume,I/Ointensivejobs• n Worksbestforlargerecord,sequentialaccesspatterns,hasoptimizations• forotherpatterns(e.g.,strided,backward)• nConvertingtoGPFSdoesnotrequireapplicationcodechangesprovidedthecodeworksinaPOSIXcompatibleenvironment

https://agenda.infn.it/getFile.py/access?sessionId=7&resId=0&materialId=0&confId=5516

Page 36: HPC-Systeme HPC und Storage

WasGPFSnichtist:

• GPFSisnotaclient/serverfilesystemlikeNFS,CIFS(Samba)orAFS/DFSwithasinglefileserver.• GPFSnodescanbeanNFSorCIFSserver,butGPFStreatsthemlikeanyotherapplication.

• GPFSisnotaSANfilesystemwithdedicatedmetadataserver.• GPFScanruninaSANfilesystemlikemode,butitdoesnothaveadedicatedmetadataserver.

• GPFSavoidsthebottlenecksintroducedbycentralizedfileand/ormetadataservers.

https://agenda.infn.it/getFile.py/access?sessionId=7&resId=0&materialId=0&confId=5516

Page 37: HPC-Systeme HPC und Storage

GPFSamDESY:Datennahme

StefanDietrich

Page 38: HPC-Systeme HPC und Storage
Page 39: HPC-Systeme HPC und Storage
Page 40: HPC-Systeme HPC und Storage

Zusammenfassung

- IOwichtigeKomponentefürdasFunktioniereneinesHPCClusters

- IO&Storagewirdhäufigvernachlässigt...InderAusbildung,Nutzer-Planung(undmanchmalauchCluster-Planung)

- StorageeinweitesFeld- HeutehabenSieallesausAdmin-Sichtgelernt- NächstesMallernenSieallesausNutzer-Sicht- Undübendasfleissig

Page 41: HPC-Systeme HPC und Storage

...Onemore thing:Prüfung

• Prüfung am27.7.ab14:00•Mündliche Prüfung bei Herrn Prof.Gülzow,Beisitzer Y.Kemp• Dauer ca20Minuten proPrüfling• Anmeldung undkonkrete Termine werden rechtzeitigbekannt gegeben.• Inhalt:Kurs undÜbungen,Materialien siehe Folien