Archiv mit Sam FS / QFS bei CSCS - konferenz-nz.dlr.dekonferenz-nz.dlr.de/pages/samfs2009/present/2....

Post on 15-Aug-2019

215 views 0 download

Transcript of Archiv mit Sam FS / QFS bei CSCS - konferenz-nz.dlr.dekonferenz-nz.dlr.de/pages/samfs2009/present/2....

Archiv mit Sam FS / QFS bei CSCS

4. Sam-FS / QFS Nutzerkonferenz 2009 Roberto Morrison

22

Was werden Sie sehen?

CSCS: Geschichte, wer sind wir, wo sind wir, unsere Systeme, was machen wir?

CSCS Archivsystem Beschreibung

Einfuehrung von SL8500 und LTO4

33

Umfang

1991 gegründet, CSCS (Centro Svizzero di Calcolo Scientifico) ist eine unabhängige Einheit von ETH Zürich40 Mitarbeiter mit naturwissenschaftlicher oder technischer ErfahrungEtwa 60 grosse Projekte mit 350 ForschernHochleistungsrechner für akademische Institute und eidgenössischen Wetterdienst

4

Geographie...

4

5

Ansicht

6

Systeme

CRAY XT3 / XT4 / XT5 clustersIBM P5 clusterSUN Fire Pre/Post processing clusterHP-XC SVA (visualization cluster)SUN LCG-TIER 2 clusterGlobal shared parallel file systemArchive system

7

Netzwerk

7

88

Bereiche und Anwendungen

Earth and environmental sciences (ECHAM5, CCSM 3, CSM 1.4, MeteoSwiss COSMO Model)Chemistry (ABINIT, ADF, CPMD, v-Espresso, GAMESS, Gaussian03, MOLPRO, NAMD, NWChem…)Physics (v-Espresso, CPMD)Material science (VASP, CP2K, CPMD)Biosciences (ROSETTA, NAMD, AMBER)Astronomy (RAMSES)Fluid dynamics (user developed codes)Nanoscience (GAMESS, v-Espresso)

99

CPU Verteilung 2008

1010

Archivgeschichte

1991: Convex UniTree

1996: UniTree Support wurde eingestellt

1998: Migration zu QFS

300’000 Dateien, 10TB, 3480 Kassetten

1111

Archiv Komponenten

Server: SunFire X4600 + SunFire X4200Kontroller DS4800:75 TB Disk Cache (SATA)25 TB Diskarchiv (SATA)Kontroller D280:1.5 TB Metadata (12x 128GB FC mirrored)Tape Libraries: 1 SL8500 (3 exp.) + 1 STK9310Drives: 6x 9940C, 6x T10000A, 4x LTO4Kassetten : ~7000, ~1.9 PBSamFS 4.6.73ACSLS 7.3

12

Archiv Layout

13

GB seit 2000

14

GB Monatliche Wachstum seit 2006

15

GB - 9 Monate

2009-06-01 1842.095 TB

2009-04-01 1757.269 TB

2009-02-01 1674.371 TB

2008-12-01 1569.483 TB

2008-10-01 1517.048 TB

16

# Inodes - 9 Monate

2009-06-01 41480 K

2009-04-01 39763 K

2009-02-01 40579 K

2008-12-01 40160 K

2008-10-01 39860 K

17

Klassenverteilung 1

ClassRange Total Total Average Total Total

Files % Size % Filesize Online % Locked

( 1): 0K - 4K 4155221 10 4.66 G 0 1.17 K 587.53 G 1 3.06 G

( 2): 4K - 8K 955455 2 5.06 G 0 5.55 K 259.24 G 0 1.18 G

( 3): 8K - 16K 1196426 3 14.18 G 0 12.43 K 120.25 G 0 6.53 G

( 4): 16K - 32K 1845418 4 41.59 G 0 23.63 K 232.43 G 0 67.50 M

( 5): 32K - 64K 1916104 5 84.52 G 0 46.25 K 73.59 G 0 19.50 M

( 6): 64K - 128K 2139976 5 178.64 G 0 87.53 K 102.80 G 0 1.44 G

( 7): 128K - 256K 5954211 14 1.04 T 0 187.09 K 179.66 G 0 8.50 G

( 8): 256K - 512K 2836922 7 0.98 T 0 370.44 K 137.70 G 0 8.31 G

( 9): 512K - 1M 1798707 4 1.22 T 0 728.90 K 254.28 G 0 250.50 M

(10): 1M - 2M 5116131 12 7.17 T 1 1.47 M 1.09 T 1 915.00 M

(11): 2M - 4M 2180398 5 6.12 T 1 2.94 M 882.21 G 1 228.00 M

(12): 4M - 8M 4645923 11 27.24 T 3 6.15 M 6.48 T 8 8.37 G

(13): 8M - 16M 2039248 5 22.46 T 2 11.55 M 3.81 T 5 39.00 M

(14): 16M - 32M 2176070 5 44.58 T 5 21.48 M 11.25 T 15 340.50 M

(15): 32M - 64M 1064570 3 40.54 T 4 39.93 M 7.97 T 10 0.00

18

Klassenverteilung 2

ClassRange Total Total Average Total Total

Files % Size % Filesize Online % Locked

(16): 64M - 128M 378255 1 32.72 T 3 90.72 M 3.31 T 4 324.00 M

(17): 128M - 256M 472809 1 79.78 T 8 176.93 M 7.43 T 10 771.00 M

(18): 256M - 512M 342038 1 108.72 T 11 333.30 M 12.40 T 16 8.34 G

(19): 512M - 1G 54115 0 39.14 T 4 758.37 M 146.98 G 0 3.22 G

(20): 1G - 2G 53252 0 65.31 T 7 1.26 G 263.65 G 0 0.00

(21): 2G - 4G 46558 0 131.80 T 14 2.90 G 188.34 G 0 2.78 G

(22): 4G - 8G 16145 0 87.55 T 9 5.55 G 973.26 G 1 16.86 G

(23): 8G - 16G 7370 0 76.14 T 8 10.58 G 222.50 G 0 0.00

(24): 16G - 32G 4750 0 96.55 T 10 20.81 G 88.06 G 0 23.11 G

(25): 32G - 64G 1033 0 36.87 T 4 36.55 G 0.00 0 0.00

(26): 64G - 128G 197 0 18.60 T 2 96.69 G 0.00 0 0.00

(27): 128G - 256G 121 0 21.28 T 2 180.09 G 206.68 G 0 0.00

(28): 256G - 512G 50 0 15.44 T 2 316.31 G 0.00 0 0.00

(29): 512G - 1T 15 0 9.79 T 1 668.02 G 0.00 0 0.00

Total 41277339 965 T

19

Tägliches stage

20

Tägliches archive

21

Tägliche Grenzwerte

Max stages: 8.85 TB / 3‘748K inodesDurchschnitt: 4.16 TB / 165K inodes

Max archives: 11.98 TB / 3‘152K inodesDurchschnitt: 2.72 TB / 114K inodes

22

Policies

Benutzerdateien: 2 Kopien, bis 6 Monaten nach Projektende

Systembackups: 1 Kopie

Spezialprojekte: 2 Kopien mit Diskarchiv

23

archiver.cmd

<1M: - c1 Diskarchiv => T10K- c2 T10K- release –n

[1-128M] - c1 Diskarchiv => T10K- c2 LTO4

>128M - c1 LTO4- c2 LTO4

24

STK9310 => SL8500

Warum:- STK9310 end of life- STK9310 Wartungskosten- LTO4 einfuehren

Voraussetzungen:- LTO4 IBM Drive => SamFS 4.6 Patch 3- SL8500 => ACSLS 7.3 empfohlen- ACSLS 7.3 => Solaris 10 u4 Sparc+ 9840C Slotlizenz + Wartung => migrieren

25

STK9310 => SL8500 Probleme

- RS232 Kabelverbindung LMU-ACSLSLaenge, RS232 Serverschnittstelle, Adapter

- T10K Adapter fuer SL8500SUN

- Physische 1000 KassettenumzugManpower

- ACSLS Konfigurierung selbst mit Sun hintsLibrary 9310 audit ~4Std!

- SamFS Konfigurierungselbst mit HMK hints

- SL8500 physische InstallationSun, 1 Wo 2 Pers.

26

LTO4 – zu beachten

- SamFS Patchlevel

- FC Kabellänge

- Solaris st driver Patches

- SamFS Blocksize Konfiguration

- Drive Spezi - Temperatur im Raum!?

- Drive Firmware

27

LTO4 - Geschichte

- Dez 2006: 9940C Kassettenkosten explodiert => ~30‘000 Eur / 6 Wochen

- Aug 2007: T10000A eingefuegt=> Kosten/GB „nur“ etwas besser

- Sep 2008: 2x LTO4 mit SL8500 eingefuegt=> Systembackup Testphase, 4x billiger/GB

- Dez 2008: 2 extra LTO4 Testphase ok => Archiv big.copy2

- Mar 2009: LTO4 user big.c1 backups- Mai 2009: LTO4 stop wegen Defektkassetten

28

Kassetten Defektlieferung?

- End Apr: 400 LTO4 Kassettenlieferung

- Anf Mai: LTO4 drives bad performance + blockiert C flag- 14 Mai: Sun case, vermute Probl. SamfS-ACSLS mit Clean

- 22 Mai: 1 Drive mehr Fehlerlogs (tapealert –f) zu ersetzen...

- 26 Mai: 2 Kassetten gebrochen in 2 Tagen!Während des Ersatzes bemerkte man schwarzes Bandpulver! Alle drives betroffen!=> LTO4 archivierung eingestellt, => 2 neue Drives on (lesen), 2 schmutzige Drives off=> drive+Kassetten zu analyse bei Sun

29

Was jetzt?

- Eine der 2 gebrochenen Kassetten war von der Januar Lieferung...

- Gute Kassetten wurden in verschmutzten Drives geladen und wahrscheinlich geschädigt!

- => Muss alle LTO4 Kassetten (Daten + Clean) + Drives ersetzen und rearchivieren

- => Will neue Drives und Kassetten in separaten Pool konfigurieren fuer archiver.cmd und Rearchivierung

30

Team

Davide Tacchella tack@cscs.ch

Roberto Morrison morrison@cscs.ch

Vincenzo Annaloro annaloro@cscs.ch