in der Helmholtz-Gemeinschaftquast/TAB/dec06/IWR-Rep-GridKa0080-v1...10. GridKa OB, November 17,...
Transcript of in der Helmholtz-Gemeinschaftquast/TAB/dec06/IWR-Rep-GridKa0080-v1...10. GridKa OB, November 17,...
110. GridKa OB, November 17, 2006
Forschungszentrum Karlsruhein der Helmholtz-Gemeinschaft
10. GridKa 10. GridKa OverviewOverview BoardBoardGridKa StatusberichtGridKa Statusbericht
Holger Marten
Forschungszentrum Karlsruhe GmbHInstitut für Wissenschaftliches Rechnen, IWR
Postfach 3640D-76021 Karlsruhe
210. GridKa OB, November 17, 2006
Ausbau GridKa 2006Ausbau GridKa 2006
Prozessoren• Verzögerung der Installation durch Bios-Inkompatibilitäten
Verfügbarkeit ab August 2006
Disk• Lieferung und Einbau der Platten und Fileserver im Mai• hohe Mehrfachbelastung der Administratoren durch
gleichzeitige Installation neuer Hardware, Experiment-Supportund Problemlösung
schrittweise roll-out ab Juli 2006, teilweise aber für dieExperimente zeitlich knapp
310. GridKa OB, November 17, 2006
Ausbau GridKa 2006Ausbau GridKa 2006
Tape• Neue Tape-Library im Oktober eingetroffen (notwendig für 2007)• Gesamtkapazität damit >10.000 slots = 4 PB (bei 400 GB/Band)• Ziel: Freigabe im Frühjahr 2007
Installation Grau XL,Oct-2006
410. GridKa OB, November 17, 2006
Ausbau GridKa 2006Ausbau GridKa 2006
WAN/Internet• Internet mit 10 Gb/s für Tier-1/2 Verkehr bereits seit 2005• Dedizierte OPN-Verbindung CERN–GridKa verzögert seitens DFN
in Produktion seit Juli 2006
Datenbank-Systeme• Aufbau experimentspezifischer Datenbanken (Oracle & Squid)• Installation und Test über LCG Subprojekt „3D“ (Meilenstein 30.9.06)
• anfängliche Hardware- und Personalengpässetermingerecht freigegeben am 30.9.06
510. GridKa OB, November 17, 2006
Ausbau GridKa 2006Ausbau GridKa 2006
gLite 3.0• upgrade von LCG 2.6 auf 2.7 im Frühjahr wegen Personalengpass
ausgelassen; stattdessen von LCG 2.7 auf gLite 3.0 im JuniRelease-Sprung war zu groß (im nachhinein deutlichMehrarbeit) und für einige Experimente zu spät (VO-Boxen)
File Transfer Service• Filetransfers zu allen im Juni bekannten, assoziierten Tier-0/1/2
aufgesetzt und im Rahmen der Service Challenges getestetExtrem arbeitsintensiv; viele Parameteranpassungen in denTier-2s der Testpartner; einige T2s sind noch nicht so weitRekorde: siehe nächste Folie
610. GridKa OB, November 17, 2006
FTSFTS--RekordeRekorde
14.11.2006 15.11.2006
• Datenimport über OPN auf dCache -Platten und -Bänder bei GridKa• Stundenmittel = 477 MB/s am 15.11.2006, 4:00-5:00 Uhr• 8-Stundenmittel = 436,4 MB/s zwischen 14.11., 23:00 und 15.11., 7:00• Target für 2008 = 200 MB/s; 400 MB/s für „catch-up“ nach Ausfall
710. GridKa OB, November 17, 2006
Ausbau GridKa 2006 Ausbau GridKa 2006 -- ZusammenfassungZusammenfassung
Erinnerung: MoU-Meilenstein wurde auf Juli 2006 verschoben!
• CPU: 2087 kSI2k verfügbar seit August• Disk: 640 TB seit Juni; roll-out noch nicht ganz abgeschlossen• Tape: 940 TB verfügbar seit April• WAN: 2x 10 Gb/s komplett seit Juni• 3D-Datenbanken: plangemäß seit Ende September• gLite 3.0: seit Juni• FTS: OPN-Datenraten > 400 MB/s erreicht; Tests mit Tier-0/1/2
Es gibt ca. 15 neue, noch nicht eingebundene Tier-2s !!
Auch die nicht-LHC Experimente haben sicherlich unter einigen Verzögerungen gelitten.
910. GridKa OB, November 17, 2006
IssuesIssues
Stabilität, Verfügbarkeit, Personalengpässe
• Juni: Grid Infosysteme zeigen Verfügbarkeit GridKa = 0 nachgLite update. Experimente können aber hervorragend arbeiten.Langer Diskussionsprozess mit den Entwicklern.
• 15. Juli: Totalverlust der Kühlung nach Sensorbruch mitanschließender Notabschaltung sämtlicher Systeme vor demWochenende. Anschließendes unkontrolliertes Einschalten derKühlung führt zu Verlusten von Festplatten und Filesystemen.Langwierige Reparaturarbeit.
1010. GridKa OB, November 17, 2006
IssuesIssues
• Juli/August: Instabilitäten und Skalierungsprobleme einigerMiddleware-Services. Analyse und Fehlerbehebung in mehrerenStufen und über mehrere Wochen
• August/September: Skalierungs- und Stabilitätsprobleme dergridFTP-Implementierung in dCache zeigen sich erst nachLösung der Middleware-Instabilitäten (gekoppelte Probleme).Analysen und Schaffung von Work-arounds.
• Ende September: Notwendige OPN-Umschaltung aufdynamisches Routing führt zu unerwartetenTransfer-Fehlern;Mehrere Tage für Fehlerbehebung.
1110. GridKa OB, November 17, 2006
IssuesIssues
• 20. Oktober: Entdeckung einer Sicherheitslücke im Batch-System. Abschaltung GridKa vor dem Wochenende, da Patcheserst am folgenden Montag erhältlich.
• 24. Oktober: Geplanter update von dCache. AnschließendInstabilitätsprobleme (anderer Art als vorher) über ca. 1 Woche.Insbesondere CMS und ATLAS betroffen. Fehlersuche undSchaffung von Work-arounds. Jetzt deutlich stabiler als voher.
• 15. November: Stromausfall im gesamten Zentrum. Ausfall derKühlung, Notabschaltung aller Systeme…
1210. GridKa OB, November 17, 2006
Kernproblem Kernproblem „„ProduktionsstabilitProduktionsstabilitäätt““(LCG & GridKa) (LCG & GridKa) –– Versuch einer AnalyseVersuch einer Analyse
FazitDie äußeren Randbedingungen lassen gegenwärtig noch keinen regulären Produktionsbetrieb zu. Der Übergang von Test- zu Produktionsbetrieb läuft (immer) noch. „Babysitting“ oft auch am Wochenende notwendig.
Notwendige Voraussetzung für stabilen Betrieb ist, dass sich die äußeren Randbedingungen stabilisieren, … Achtung, die wichtigsten Neuerungen kommen erst im Frühjahr 2007!
Mehrfachbelastung des Personals durch: weiteren Ausbau, neue Funktionalitäten, Updates, Instabilitäten, Experiment- & Benutzerunter-stützung, workshops, KIT, SCC + zeitlich befristete Arbeitsverträge…
Die Belastungsgrenze einiger Administratoren ist deutlich überschritten!
Fast identisch mit Folien 23-26 in OB#9
1410. GridKa OB, November 17, 2006
Planungen fPlanungen füür 24x7 Betrieb bei GridKar 24x7 Betrieb bei GridKa
Es gab wiederholt Ausfälle oder Instabilitäten, die an Wochenenden zu eingeschränkter Verfügbarkeit über mehr als 48 Stunden geführt haben.
Mehrfache Empfehlung des TAB, auch am Wochenende mal in das System zu schauen
Vorgeschlagene Vorgehensweise:• Terminals und Internetzugang für Administratoren zu Hause
(bezahlt durch FZK im Rahmen des Projektes)• Pflicht, an Wochenenden & Feiertagen ca. 2 Stunden pro Tag
Systemarbeiten zu verrichten (angeordnete Überstunden)• Ausgleich durch Freizeit und/oder bezahlte Überstunden nach
Wahl der Mitarbeiter
Hilft, bereits heute geleistete Mehrarbeit zu honorieren, Arbeit auf mehr Schultern zu verteilen, Experten zu entlasten,…
1510. GridKa OB, November 17, 2006
Planungen fPlanungen füür 24x7 Betrieb bei GridKar 24x7 Betrieb bei GridKa
24x7 Betrieb erfordert Rufbereitschaft für zentrale Kerndienste(Bsp.: batch server, Internet-Anbindung, LCG-Zugangsrechner,…)
Definition dreier Rufbereitschaftskreise (RB) für:• Netzwerke (LAN, WAN)• Online und Hintergrundspeicher• Grid Middleware Services
Kosten: ca. 35.000.- Eur pro Bereitschaftskreis und Jahr für zusätzliches Personal und Gehalt.
RB macht nur Sinn, wenn die betriebene Umgebung stabil ist (wenig Änderungen oder neue Funktionalitäten, hauptsächlich für bugfixes) und die Dienste automatisiert überwacht werden können! Arbeit & Zeit!
1610. GridKa OB, November 17, 2006
Personalsituation fPersonalsituation füür den Betrieb von GridKar den Betrieb von GridKa
Über das Projekt GridKa werden gegenwärtig 10 Akademiker und 13 Ingenieure finanziert (inklusive einer zum 15.1.2007 zu besetzenden Stelle). Diese arbeiten in den Bereichen:
• GridKa Aufbau & Betrieb; LCG & non-LHC Exp. (17,25 FTE)• EGEE Grid Operations; ROC & GGUS (4,5 FTE)• D-Grid Autorisierung und Authentifizierung (0,75 FTE)• ISSeG (0,5 FTE)• Unterstützung von 2 Auszubildenden und 2 Diplomanden
Das Projekt wird aus dem Service-Bereich zusätzlich unterstützt durch ca. 0,5 FTE Akademiker und 0,3 FTE Ingenieure.
Nicht aufgelistet sind 2 Akademiker, die über Drittmittel finanziert werden (reine F&E-Tätigkeiten für EGEE und ISSeG).
1710. GridKa OB, November 17, 2006
Personalsituation fPersonalsituation füür den Betrieb von GridKar den Betrieb von GridKa
Von diesen 23 Personen haben:• 4 Akademiker und 6 Ingenieure Dauerstellen• 6 Akademiker und 7 Ingenieure Zeitverträge• nur 13 Personen eine Stelle laut Stellenplan
Konsequenzen:• Personal mit Zeitverträgen fällt aus der 12-Jahresregelung nach HRG• Hohe Fluktuationsrate• Hoher Aufwand für Neuausschreibungen & Stellenverlängerungen• Hoher Aufwand, gegebenenfalls neue Mitarbeiter anzulernen
Mit diesem hohen Anteil an Zeitverträgen und Sonderfinanzierungen ist der langfristige Betrieb des Großgerätes GridKa nicht zu gewährleisten.
1810. GridKa OB, November 17, 2006
Ressourcenanforderungen an Ressourcenanforderungen an GridKaGridKa
10. GridKa OB, November 17, 2006
ÄÄnderungen der Ressourcenplanung bei GridKanderungen der Ressourcenplanung bei GridKa(nur (nur LHCLHC--AnteilAnteil))
11.5777.3123.4421.007neu; 18.11.06
+ 67+ 58+ 7- 30∆
- 665- 633- 350- 143∆
- 202
7.514
5.2105.152
10.912
11.545
2009
8.1423.261878neu; 18.11.06
16.7236.7951.864neu; 18.11.06
11.7633.4721.053MoU Tape [TB]
-186- 30- 46∆
8.0753.254908MoU Disk [TB]
17.3887.1452.007MoU CPU [kSI2k]
201020082007
Verschiebungen im Prozentbereich; kaum finanzielle Auswirkungen.Sollen diese neuen Zahlen als GridKa MoU-Werte „planned to bepledged“ an das LCG-Projekt weitergegeben werden?
Überarbeitung der Ressourcenanforderungen durch das TAB aufgrund der geänderten Zeitskalen des LHC.