Archiv mit Sam FS / QFS bei CSCS
4. Sam-FS / QFS Nutzerkonferenz 2009 Roberto Morrison
22
Was werden Sie sehen?
CSCS: Geschichte, wer sind wir, wo sind wir, unsere Systeme, was machen wir?
CSCS Archivsystem Beschreibung
Einfuehrung von SL8500 und LTO4
33
Umfang
1991 gegründet, CSCS (Centro Svizzero di Calcolo Scientifico) ist eine unabhängige Einheit von ETH Zürich40 Mitarbeiter mit naturwissenschaftlicher oder technischer ErfahrungEtwa 60 grosse Projekte mit 350 ForschernHochleistungsrechner für akademische Institute und eidgenössischen Wetterdienst
4
Geographie...
4
5
Ansicht
6
Systeme
CRAY XT3 / XT4 / XT5 clustersIBM P5 clusterSUN Fire Pre/Post processing clusterHP-XC SVA (visualization cluster)SUN LCG-TIER 2 clusterGlobal shared parallel file systemArchive system
7
Netzwerk
7
88
Bereiche und Anwendungen
Earth and environmental sciences (ECHAM5, CCSM 3, CSM 1.4, MeteoSwiss COSMO Model)Chemistry (ABINIT, ADF, CPMD, v-Espresso, GAMESS, Gaussian03, MOLPRO, NAMD, NWChem…)Physics (v-Espresso, CPMD)Material science (VASP, CP2K, CPMD)Biosciences (ROSETTA, NAMD, AMBER)Astronomy (RAMSES)Fluid dynamics (user developed codes)Nanoscience (GAMESS, v-Espresso)
99
CPU Verteilung 2008
1010
Archivgeschichte
1991: Convex UniTree
1996: UniTree Support wurde eingestellt
1998: Migration zu QFS
300’000 Dateien, 10TB, 3480 Kassetten
1111
Archiv Komponenten
Server: SunFire X4600 + SunFire X4200Kontroller DS4800:75 TB Disk Cache (SATA)25 TB Diskarchiv (SATA)Kontroller D280:1.5 TB Metadata (12x 128GB FC mirrored)Tape Libraries: 1 SL8500 (3 exp.) + 1 STK9310Drives: 6x 9940C, 6x T10000A, 4x LTO4Kassetten : ~7000, ~1.9 PBSamFS 4.6.73ACSLS 7.3
12
Archiv Layout
13
GB seit 2000
14
GB Monatliche Wachstum seit 2006
15
GB - 9 Monate
2009-06-01 1842.095 TB
2009-04-01 1757.269 TB
2009-02-01 1674.371 TB
2008-12-01 1569.483 TB
2008-10-01 1517.048 TB
16
# Inodes - 9 Monate
2009-06-01 41480 K
2009-04-01 39763 K
2009-02-01 40579 K
2008-12-01 40160 K
2008-10-01 39860 K
17
Klassenverteilung 1
ClassRange Total Total Average Total Total
Files % Size % Filesize Online % Locked
( 1): 0K - 4K 4155221 10 4.66 G 0 1.17 K 587.53 G 1 3.06 G
( 2): 4K - 8K 955455 2 5.06 G 0 5.55 K 259.24 G 0 1.18 G
( 3): 8K - 16K 1196426 3 14.18 G 0 12.43 K 120.25 G 0 6.53 G
( 4): 16K - 32K 1845418 4 41.59 G 0 23.63 K 232.43 G 0 67.50 M
( 5): 32K - 64K 1916104 5 84.52 G 0 46.25 K 73.59 G 0 19.50 M
( 6): 64K - 128K 2139976 5 178.64 G 0 87.53 K 102.80 G 0 1.44 G
( 7): 128K - 256K 5954211 14 1.04 T 0 187.09 K 179.66 G 0 8.50 G
( 8): 256K - 512K 2836922 7 0.98 T 0 370.44 K 137.70 G 0 8.31 G
( 9): 512K - 1M 1798707 4 1.22 T 0 728.90 K 254.28 G 0 250.50 M
(10): 1M - 2M 5116131 12 7.17 T 1 1.47 M 1.09 T 1 915.00 M
(11): 2M - 4M 2180398 5 6.12 T 1 2.94 M 882.21 G 1 228.00 M
(12): 4M - 8M 4645923 11 27.24 T 3 6.15 M 6.48 T 8 8.37 G
(13): 8M - 16M 2039248 5 22.46 T 2 11.55 M 3.81 T 5 39.00 M
(14): 16M - 32M 2176070 5 44.58 T 5 21.48 M 11.25 T 15 340.50 M
(15): 32M - 64M 1064570 3 40.54 T 4 39.93 M 7.97 T 10 0.00
18
Klassenverteilung 2
ClassRange Total Total Average Total Total
Files % Size % Filesize Online % Locked
(16): 64M - 128M 378255 1 32.72 T 3 90.72 M 3.31 T 4 324.00 M
(17): 128M - 256M 472809 1 79.78 T 8 176.93 M 7.43 T 10 771.00 M
(18): 256M - 512M 342038 1 108.72 T 11 333.30 M 12.40 T 16 8.34 G
(19): 512M - 1G 54115 0 39.14 T 4 758.37 M 146.98 G 0 3.22 G
(20): 1G - 2G 53252 0 65.31 T 7 1.26 G 263.65 G 0 0.00
(21): 2G - 4G 46558 0 131.80 T 14 2.90 G 188.34 G 0 2.78 G
(22): 4G - 8G 16145 0 87.55 T 9 5.55 G 973.26 G 1 16.86 G
(23): 8G - 16G 7370 0 76.14 T 8 10.58 G 222.50 G 0 0.00
(24): 16G - 32G 4750 0 96.55 T 10 20.81 G 88.06 G 0 23.11 G
(25): 32G - 64G 1033 0 36.87 T 4 36.55 G 0.00 0 0.00
(26): 64G - 128G 197 0 18.60 T 2 96.69 G 0.00 0 0.00
(27): 128G - 256G 121 0 21.28 T 2 180.09 G 206.68 G 0 0.00
(28): 256G - 512G 50 0 15.44 T 2 316.31 G 0.00 0 0.00
(29): 512G - 1T 15 0 9.79 T 1 668.02 G 0.00 0 0.00
Total 41277339 965 T
19
Tägliches stage
20
Tägliches archive
21
Tägliche Grenzwerte
Max stages: 8.85 TB / 3‘748K inodesDurchschnitt: 4.16 TB / 165K inodes
Max archives: 11.98 TB / 3‘152K inodesDurchschnitt: 2.72 TB / 114K inodes
22
Policies
Benutzerdateien: 2 Kopien, bis 6 Monaten nach Projektende
Systembackups: 1 Kopie
Spezialprojekte: 2 Kopien mit Diskarchiv
23
archiver.cmd
<1M: - c1 Diskarchiv => T10K- c2 T10K- release –n
[1-128M] - c1 Diskarchiv => T10K- c2 LTO4
>128M - c1 LTO4- c2 LTO4
24
STK9310 => SL8500
Warum:- STK9310 end of life- STK9310 Wartungskosten- LTO4 einfuehren
Voraussetzungen:- LTO4 IBM Drive => SamFS 4.6 Patch 3- SL8500 => ACSLS 7.3 empfohlen- ACSLS 7.3 => Solaris 10 u4 Sparc+ 9840C Slotlizenz + Wartung => migrieren
25
STK9310 => SL8500 Probleme
- RS232 Kabelverbindung LMU-ACSLSLaenge, RS232 Serverschnittstelle, Adapter
- T10K Adapter fuer SL8500SUN
- Physische 1000 KassettenumzugManpower
- ACSLS Konfigurierung selbst mit Sun hintsLibrary 9310 audit ~4Std!
- SamFS Konfigurierungselbst mit HMK hints
- SL8500 physische InstallationSun, 1 Wo 2 Pers.
26
LTO4 – zu beachten
- SamFS Patchlevel
- FC Kabellänge
- Solaris st driver Patches
- SamFS Blocksize Konfiguration
- Drive Spezi - Temperatur im Raum!?
- Drive Firmware
27
LTO4 - Geschichte
- Dez 2006: 9940C Kassettenkosten explodiert => ~30‘000 Eur / 6 Wochen
- Aug 2007: T10000A eingefuegt=> Kosten/GB „nur“ etwas besser
- Sep 2008: 2x LTO4 mit SL8500 eingefuegt=> Systembackup Testphase, 4x billiger/GB
- Dez 2008: 2 extra LTO4 Testphase ok => Archiv big.copy2
- Mar 2009: LTO4 user big.c1 backups- Mai 2009: LTO4 stop wegen Defektkassetten
28
Kassetten Defektlieferung?
- End Apr: 400 LTO4 Kassettenlieferung
- Anf Mai: LTO4 drives bad performance + blockiert C flag- 14 Mai: Sun case, vermute Probl. SamfS-ACSLS mit Clean
- 22 Mai: 1 Drive mehr Fehlerlogs (tapealert –f) zu ersetzen...
- 26 Mai: 2 Kassetten gebrochen in 2 Tagen!Während des Ersatzes bemerkte man schwarzes Bandpulver! Alle drives betroffen!=> LTO4 archivierung eingestellt, => 2 neue Drives on (lesen), 2 schmutzige Drives off=> drive+Kassetten zu analyse bei Sun
29
Was jetzt?
- Eine der 2 gebrochenen Kassetten war von der Januar Lieferung...
- Gute Kassetten wurden in verschmutzten Drives geladen und wahrscheinlich geschädigt!
- => Muss alle LTO4 Kassetten (Daten + Clean) + Drives ersetzen und rearchivieren
- => Will neue Drives und Kassetten in separaten Pool konfigurieren fuer archiver.cmd und Rearchivierung
30
Team
Davide Tacchella [email protected]
Roberto Morrison [email protected]
Vincenzo Annaloro [email protected]
Top Related