in der Helmholtz-Gemeinschaftquast/TAB/dec06/IWR-Rep-GridKa0080-v1...10. GridKa OB, November 17,...

19
10. GridKa OB, November 17, 2006 Forschungszentrum Karlsruhe in der Helmholtz-Gemeinschaft 10. GridKa 10. GridKa Overview Overview Board Board GridKa Statusbericht GridKa Statusbericht Holger Marten Forschungszentrum Karlsruhe GmbH Institut für Wissenschaftliches Rechnen, IWR Postfach 3640 D-76021 Karlsruhe

Transcript of in der Helmholtz-Gemeinschaftquast/TAB/dec06/IWR-Rep-GridKa0080-v1...10. GridKa OB, November 17,...

110. GridKa OB, November 17, 2006

Forschungszentrum Karlsruhein der Helmholtz-Gemeinschaft

10. GridKa 10. GridKa OverviewOverview BoardBoardGridKa StatusberichtGridKa Statusbericht

Holger Marten

Forschungszentrum Karlsruhe GmbHInstitut für Wissenschaftliches Rechnen, IWR

Postfach 3640D-76021 Karlsruhe

210. GridKa OB, November 17, 2006

Ausbau GridKa 2006Ausbau GridKa 2006

Prozessoren• Verzögerung der Installation durch Bios-Inkompatibilitäten

Verfügbarkeit ab August 2006

Disk• Lieferung und Einbau der Platten und Fileserver im Mai• hohe Mehrfachbelastung der Administratoren durch

gleichzeitige Installation neuer Hardware, Experiment-Supportund Problemlösung

schrittweise roll-out ab Juli 2006, teilweise aber für dieExperimente zeitlich knapp

310. GridKa OB, November 17, 2006

Ausbau GridKa 2006Ausbau GridKa 2006

Tape• Neue Tape-Library im Oktober eingetroffen (notwendig für 2007)• Gesamtkapazität damit >10.000 slots = 4 PB (bei 400 GB/Band)• Ziel: Freigabe im Frühjahr 2007

Installation Grau XL,Oct-2006

410. GridKa OB, November 17, 2006

Ausbau GridKa 2006Ausbau GridKa 2006

WAN/Internet• Internet mit 10 Gb/s für Tier-1/2 Verkehr bereits seit 2005• Dedizierte OPN-Verbindung CERN–GridKa verzögert seitens DFN

in Produktion seit Juli 2006

Datenbank-Systeme• Aufbau experimentspezifischer Datenbanken (Oracle & Squid)• Installation und Test über LCG Subprojekt „3D“ (Meilenstein 30.9.06)

• anfängliche Hardware- und Personalengpässetermingerecht freigegeben am 30.9.06

510. GridKa OB, November 17, 2006

Ausbau GridKa 2006Ausbau GridKa 2006

gLite 3.0• upgrade von LCG 2.6 auf 2.7 im Frühjahr wegen Personalengpass

ausgelassen; stattdessen von LCG 2.7 auf gLite 3.0 im JuniRelease-Sprung war zu groß (im nachhinein deutlichMehrarbeit) und für einige Experimente zu spät (VO-Boxen)

File Transfer Service• Filetransfers zu allen im Juni bekannten, assoziierten Tier-0/1/2

aufgesetzt und im Rahmen der Service Challenges getestetExtrem arbeitsintensiv; viele Parameteranpassungen in denTier-2s der Testpartner; einige T2s sind noch nicht so weitRekorde: siehe nächste Folie

610. GridKa OB, November 17, 2006

FTSFTS--RekordeRekorde

14.11.2006 15.11.2006

• Datenimport über OPN auf dCache -Platten und -Bänder bei GridKa• Stundenmittel = 477 MB/s am 15.11.2006, 4:00-5:00 Uhr• 8-Stundenmittel = 436,4 MB/s zwischen 14.11., 23:00 und 15.11., 7:00• Target für 2008 = 200 MB/s; 400 MB/s für „catch-up“ nach Ausfall

710. GridKa OB, November 17, 2006

Ausbau GridKa 2006 Ausbau GridKa 2006 -- ZusammenfassungZusammenfassung

Erinnerung: MoU-Meilenstein wurde auf Juli 2006 verschoben!

• CPU: 2087 kSI2k verfügbar seit August• Disk: 640 TB seit Juni; roll-out noch nicht ganz abgeschlossen• Tape: 940 TB verfügbar seit April• WAN: 2x 10 Gb/s komplett seit Juni• 3D-Datenbanken: plangemäß seit Ende September• gLite 3.0: seit Juni• FTS: OPN-Datenraten > 400 MB/s erreicht; Tests mit Tier-0/1/2

Es gibt ca. 15 neue, noch nicht eingebundene Tier-2s !!

Auch die nicht-LHC Experimente haben sicherlich unter einigen Verzögerungen gelitten.

810. GridKa OB, November 17, 2006

IssuesIssues

910. GridKa OB, November 17, 2006

IssuesIssues

Stabilität, Verfügbarkeit, Personalengpässe

• Juni: Grid Infosysteme zeigen Verfügbarkeit GridKa = 0 nachgLite update. Experimente können aber hervorragend arbeiten.Langer Diskussionsprozess mit den Entwicklern.

• 15. Juli: Totalverlust der Kühlung nach Sensorbruch mitanschließender Notabschaltung sämtlicher Systeme vor demWochenende. Anschließendes unkontrolliertes Einschalten derKühlung führt zu Verlusten von Festplatten und Filesystemen.Langwierige Reparaturarbeit.

1010. GridKa OB, November 17, 2006

IssuesIssues

• Juli/August: Instabilitäten und Skalierungsprobleme einigerMiddleware-Services. Analyse und Fehlerbehebung in mehrerenStufen und über mehrere Wochen

• August/September: Skalierungs- und Stabilitätsprobleme dergridFTP-Implementierung in dCache zeigen sich erst nachLösung der Middleware-Instabilitäten (gekoppelte Probleme).Analysen und Schaffung von Work-arounds.

• Ende September: Notwendige OPN-Umschaltung aufdynamisches Routing führt zu unerwartetenTransfer-Fehlern;Mehrere Tage für Fehlerbehebung.

1110. GridKa OB, November 17, 2006

IssuesIssues

• 20. Oktober: Entdeckung einer Sicherheitslücke im Batch-System. Abschaltung GridKa vor dem Wochenende, da Patcheserst am folgenden Montag erhältlich.

• 24. Oktober: Geplanter update von dCache. AnschließendInstabilitätsprobleme (anderer Art als vorher) über ca. 1 Woche.Insbesondere CMS und ATLAS betroffen. Fehlersuche undSchaffung von Work-arounds. Jetzt deutlich stabiler als voher.

• 15. November: Stromausfall im gesamten Zentrum. Ausfall derKühlung, Notabschaltung aller Systeme…

1210. GridKa OB, November 17, 2006

Kernproblem Kernproblem „„ProduktionsstabilitProduktionsstabilitäätt““(LCG & GridKa) (LCG & GridKa) –– Versuch einer AnalyseVersuch einer Analyse

FazitDie äußeren Randbedingungen lassen gegenwärtig noch keinen regulären Produktionsbetrieb zu. Der Übergang von Test- zu Produktionsbetrieb läuft (immer) noch. „Babysitting“ oft auch am Wochenende notwendig.

Notwendige Voraussetzung für stabilen Betrieb ist, dass sich die äußeren Randbedingungen stabilisieren, … Achtung, die wichtigsten Neuerungen kommen erst im Frühjahr 2007!

Mehrfachbelastung des Personals durch: weiteren Ausbau, neue Funktionalitäten, Updates, Instabilitäten, Experiment- & Benutzerunter-stützung, workshops, KIT, SCC + zeitlich befristete Arbeitsverträge…

Die Belastungsgrenze einiger Administratoren ist deutlich überschritten!

Fast identisch mit Folien 23-26 in OB#9

1310. GridKa OB, November 17, 2006

24x 7 und Personalsituation24x 7 und Personalsituation

1410. GridKa OB, November 17, 2006

Planungen fPlanungen füür 24x7 Betrieb bei GridKar 24x7 Betrieb bei GridKa

Es gab wiederholt Ausfälle oder Instabilitäten, die an Wochenenden zu eingeschränkter Verfügbarkeit über mehr als 48 Stunden geführt haben.

Mehrfache Empfehlung des TAB, auch am Wochenende mal in das System zu schauen

Vorgeschlagene Vorgehensweise:• Terminals und Internetzugang für Administratoren zu Hause

(bezahlt durch FZK im Rahmen des Projektes)• Pflicht, an Wochenenden & Feiertagen ca. 2 Stunden pro Tag

Systemarbeiten zu verrichten (angeordnete Überstunden)• Ausgleich durch Freizeit und/oder bezahlte Überstunden nach

Wahl der Mitarbeiter

Hilft, bereits heute geleistete Mehrarbeit zu honorieren, Arbeit auf mehr Schultern zu verteilen, Experten zu entlasten,…

1510. GridKa OB, November 17, 2006

Planungen fPlanungen füür 24x7 Betrieb bei GridKar 24x7 Betrieb bei GridKa

24x7 Betrieb erfordert Rufbereitschaft für zentrale Kerndienste(Bsp.: batch server, Internet-Anbindung, LCG-Zugangsrechner,…)

Definition dreier Rufbereitschaftskreise (RB) für:• Netzwerke (LAN, WAN)• Online und Hintergrundspeicher• Grid Middleware Services

Kosten: ca. 35.000.- Eur pro Bereitschaftskreis und Jahr für zusätzliches Personal und Gehalt.

RB macht nur Sinn, wenn die betriebene Umgebung stabil ist (wenig Änderungen oder neue Funktionalitäten, hauptsächlich für bugfixes) und die Dienste automatisiert überwacht werden können! Arbeit & Zeit!

1610. GridKa OB, November 17, 2006

Personalsituation fPersonalsituation füür den Betrieb von GridKar den Betrieb von GridKa

Über das Projekt GridKa werden gegenwärtig 10 Akademiker und 13 Ingenieure finanziert (inklusive einer zum 15.1.2007 zu besetzenden Stelle). Diese arbeiten in den Bereichen:

• GridKa Aufbau & Betrieb; LCG & non-LHC Exp. (17,25 FTE)• EGEE Grid Operations; ROC & GGUS (4,5 FTE)• D-Grid Autorisierung und Authentifizierung (0,75 FTE)• ISSeG (0,5 FTE)• Unterstützung von 2 Auszubildenden und 2 Diplomanden

Das Projekt wird aus dem Service-Bereich zusätzlich unterstützt durch ca. 0,5 FTE Akademiker und 0,3 FTE Ingenieure.

Nicht aufgelistet sind 2 Akademiker, die über Drittmittel finanziert werden (reine F&E-Tätigkeiten für EGEE und ISSeG).

1710. GridKa OB, November 17, 2006

Personalsituation fPersonalsituation füür den Betrieb von GridKar den Betrieb von GridKa

Von diesen 23 Personen haben:• 4 Akademiker und 6 Ingenieure Dauerstellen• 6 Akademiker und 7 Ingenieure Zeitverträge• nur 13 Personen eine Stelle laut Stellenplan

Konsequenzen:• Personal mit Zeitverträgen fällt aus der 12-Jahresregelung nach HRG• Hohe Fluktuationsrate• Hoher Aufwand für Neuausschreibungen & Stellenverlängerungen• Hoher Aufwand, gegebenenfalls neue Mitarbeiter anzulernen

Mit diesem hohen Anteil an Zeitverträgen und Sonderfinanzierungen ist der langfristige Betrieb des Großgerätes GridKa nicht zu gewährleisten.

1810. GridKa OB, November 17, 2006

Ressourcenanforderungen an Ressourcenanforderungen an GridKaGridKa

10. GridKa OB, November 17, 2006

ÄÄnderungen der Ressourcenplanung bei GridKanderungen der Ressourcenplanung bei GridKa(nur (nur LHCLHC--AnteilAnteil))

11.5777.3123.4421.007neu; 18.11.06

+ 67+ 58+ 7- 30∆

- 665- 633- 350- 143∆

- 202

7.514

5.2105.152

10.912

11.545

2009

8.1423.261878neu; 18.11.06

16.7236.7951.864neu; 18.11.06

11.7633.4721.053MoU Tape [TB]

-186- 30- 46∆

8.0753.254908MoU Disk [TB]

17.3887.1452.007MoU CPU [kSI2k]

201020082007

Verschiebungen im Prozentbereich; kaum finanzielle Auswirkungen.Sollen diese neuen Zahlen als GridKa MoU-Werte „planned to bepledged“ an das LCG-Projekt weitergegeben werden?

Überarbeitung der Ressourcenanforderungen durch das TAB aufgrund der geänderten Zeitskalen des LHC.