1 DeDuplication Speicher Systeme > Gründung: 2001/ Hauptsitz in Santa Clara (CA) / +600 Angestellte...

Post on 06-Apr-2015

105 views 1 download

Transcript of 1 DeDuplication Speicher Systeme > Gründung: 2001/ Hauptsitz in Santa Clara (CA) / +600 Angestellte...

1

DeDuplication Speicher Systeme

> Gründung: 2001/ Hauptsitz in Santa Clara (CA) / +600 Angestellte> Umsatz: 2006 ca. $52 M. / 2007 ca. $122 M. / 1 HJ 2008 ca. $114 M.> Weltweite Support Infrastruktur (1.630 Stützpunkte) > + 5.500 installierte Systeme weltweit> + 2.100 Kunden> + 600 Petabyte Daten

Zeitlinie

Data Domain

First Dedupe NASFirst Dedupe NAS

First Dedupe Volume ReplicationFirst Dedupe Volume Replication

First Dedupe GatewayFirst Dedupe Gateway Largest Dedupe ArrayLargest Dedupe Array

First DedupeDirectory ReplicationFirst DedupeDirectory Replication

First Dedupe VTLFirst Dedupe VTL

2003 2004 2005 2006 2007

First Dedupe Nearline StorageFirst Dedupe Nearline Storage

2008

2

0

500

1000

1500

2000

2500

3000

3500

2006 2007 2008 2009 2010

Marktbetrachtung: Capacity Optimized Storage (COS)

COS

Tape Automation

2006 Revenues

$M

“When viewed through the data deduplication lens, Data Domain took a lion’s share of the market with 53% of the storage with data deduplication in 2006, according to our estimates.”Source: Arun Taneja, SearchStorage.com, May 2, 2007

Data Domain has enjoyed the market leadership position in the midrange data deduplication space for at least two years now. We believe that Data Domain today continues to hold a 9 to 12 month technology lead over its nearest competitor. Meanwhile the company is aggressively expanding its products both up and down the performance spectrum. Source: RBC Capital Markets Corp. - Enterprise Systems Perspectives Deduplication: Proliferation and Confrontation Ahead, June 2008

Source: Taneja Group - Next Generation Data Protection Market Profile, December 2006

3

Data Domain – Hauptmerkmale

Integration: Einfache Einbindung in bestehende Umgebungen

Technologie: DeDuplizierung

Sicherheit: “Data Invulnerability” Architektur

Effizienz: Replikation für DR

4

Integration

3U(15) 500 GB SATA drives

RAID-6NVRAMN+1 Fan

1 - 4 Ports5.4 to 21.6 TB with Shelves

File System

(Gateway: EMC, HDS, Nexsan, Pillar, NetApp, 3PAR, LSI, IBM, HP)

CIFS, NFS, NDMP

OST

FC = VTL

Replikation

Nearline Applikationen

5

3FB0734C 5B2B36AC842194A3214DCF8947

Technologie im Detail

3FB0734CD7DC8B935B2B36AC842194A3214DCF8947D7DC8B93

Pointer

6

94A3214DCF89475B23FB0734C 5B2B36AC842194A3214DCF8947B36AC84213FB0734C

Pointer

Technologie im Detail

7

94 94794A3214DCF89475B23FB0734C A3214DCF8

Technologie im Detail

8

94 9475B23FB0734C

3FB0734C5B294947

Technologie im Detail

9

Variable Segmente vs. Blocklevel

Segmemte von variabler Größe haben entscheidende Vorteile !

Feste Blockgröße versagt bei den meisten Veränderungen

Variable Startpunkte verbessern das Auffinden von Dubletten

StartpunkteRedundante Segmente

Ich bin im Z oo b ei d en A ffen

Sie sind im Zoo bei den Affe

Ich war bei den Affe n im Zoo

Paul und ich waren im Z oo b ei d en A ffen

10

Second Friday Full BackupSecond Friday Full Backup

B C D E F L G H

Daten-DeDuplizierungseffekt

A B C D E F G H I J

Friday Full BackupFriday Full Backup

A B C D A E F G

Mon IncrMon Incr A B H

Tues IncrTues Incr C B I

Thurs IncrThurs Incr A C K

Weds IncrWeds Incr E G J

BACKUP DATA LOGICAL ESTIMATED PHYSICALREDUCTION

Monday Incr 100 GB 7-10x 10 GB

Tuesday Incr 100 GB 7-10x 10 GB

K L

Wednesday Incr 100 GB 7-10x 10 GB

Thursday Incr 100 GB 7-10x 10 GB

2nd FRIDAY FULL 1 TB 50-60x 18 GB

TOTAL 2.4 TB 7.8x 308 GB

FRIDAY FULL 1 TB 2- 4x 250 GB

11

Week 1Week 1

BACKUP DATA LOGICAL ESTIMATED PHYSICALREDUCTION

Feb. 28 12.8 TB 14x 890 GB

März 31 15.2 TB 16x 940 GB

April 7 18.0 TB 18x 980 GB

April 14 19,4 TB 18x 1050 GB

April 21 21.5 TB 19x 1130 GB

TOTAL 23.4 TB 20x 1178 GB

Jan 31 8.4 TB 11x 714 GB

Längere Aufbewahrungszeiten mit der selben Diskkapazität !

Week 2Week 2

Week 3Week 3

Month 1Month 1

Month 2Month 2

Month 3Month 3

Month 4Month 4 April 28 23.4 TB 20x 1178 GB

Daten-Deduplizierungseffekt

12

Online-DeDuplizierung

► Online Erkennung von Redundanzen IO basierender Prozess benötigt CPU & RAM

► Leseverifizierung der Daten direkt beim Schreiben

► Asynchrone Replikation der Daten während dem Backup

► 1 X Schreiben auf primärer DD; 1 x Lesen für Replikation

13

Online-DeDuplizierung

4 TB 4 TB 4 TB

BackupReplikation

Kein zusätzlicher Plattenbedarf geringere Stromkosten

Keine Software-Upgradegebühren für z.B. NetWorker notwendig

Replikation kann unmittelbar mit dem Backup angestoßen werden DR fähig

14

Online versus Post - DeDuplizierung

► Festplatten I/O basierende Architektur

► Backup erfolgt direkt auf VTL Device und wird in Native Format abgelegt

► Wenn genügend System Ressourcen vorhanden sind beginnt die Deduplizierung

► Nach Abschluss der Deduplizierung beginnt die Replikation

► Kritisch im Bezug auf die Überwachung des Systemzustands

► Kritisch im Bezug auf die Systemperformance und Datenkonsistenz

► Benötigt zusätzliche Diskkapazität

► 1 x Schreiben Native; 1 x Lesen für DeDup; 1 x schreiben DeDup; 1 x Lesen für Replikation

15

Post-DeDuplizierung

10 TB

Backup Replikation

4 TB 4 TB4 TB

DeDup

Zusätzlicher Platzbedarf höhereStromkosten Zusätzliche Software-Upgradegebühren für z.B. NetWorker notwendig Extrem I/O-lastig Anfällig für Datenkonstistenzprobleme / hohe Wahrscheinlichkeit für

Diskfragmentierung Replikation kann erst nach Post-Deduplizierung angestoßen werden DR fähig ?

16

Performance: CPU vs. HDD

Source: http://seagate.com/docs/pdf/whitepaper/economies_capacity_spd_tp.pdf

Klassische Lösungen haben Nachteile gegenüber CPU bassierender DeDuplizierung

Mehr Geschwindigkeit nur durch mehr Festplatten Verschwendung von Plattenplatz Höherer Managementaufwand / Kosten

  1987 2004 Faktor

CPU Performance 1 MIPS 2,000,000 MIPS 2,000,000 x

Memory Size 16 Kbytes 32 Gbytes 2,000,000 x

Disc Drive Performance 60 msec 5.3 msec 11 x

17

Durchsatz: CPU-centric Design

Mit jeder Verdopplung der # “Cores” erhöht sich bei DD der Durchsatz um ~50% SISL™ (Stream Informed Segment Layout) CPU-centric Design

Laufwerke

Durchsatz

300 MB/sec

100 MB/sec

50 MB/sec

2001005010

Most Dedupe V

endors

Most Dedupe V

endors

FC Drives:2x SATA Geschw.3-5x SATA Preis

SATA Drives

Data Domain

18

Recovery: “Data Invulnerability” Architektur

Zusätzlicher Schutz• RAID-6• NVRAM• Snapshots

DatenüberprüfungCheck-SummeDeDup, auf Platte schreibenVerifizieren

Selbstheilendes file systemCleaningDefragVerifizieren

Trust but verify – hope is not a strategy !

19

Replikation: WAN–Effizienz

WAN

home

Backup Daten

Backup DatenBackup

Daten

home

DIR A

Quelle: Remote Sites

Ziel: Data Center Hub

95- 99% Bandbreitenreduzierung95- 99% Bandbreitenreduzierung

1- 5%

1- 5%

1- 5%

Echtes DR; reduziert WAN–Kosten; verbessert SLAs !

Backup Daten

20

Einheitliche Plattform für Archiv- und Backupdaten

home

• Archiv und Backup auf einem System

• eine Plattform für mehrere ApplikationenBackup Daten

Backup Daten

Backup Daten

Archiv Daten

Archiv Daten

Archiv Daten

WAN

• SnapShot für Datenintegrität

• Effiziente Replikation für DR

21

Skalierbarste Inline Deduplication Systeme

DD500 Appliance Series

DDX Array Series

Replicator, VTL, Open Storage, Retention Lock Software Optionen

Bis zu 16 Kontrollerinterner oder externer Storage

DD120 DD510 DD530 DD565 DD580/g DD690/g DDX Array

Durchsatz (GB/h) 150 290 360 630 800 1,4 TB/h 22,4 TB/h

Logische Kap. (TB) 7-18 55-135 110-285 320-810 430-1,08 PB 710-1,7 PB 11,3-28 PB

Roh Kap. (TB) ,750 Bis zu 3,75 Bis zu 7,5 Bis zu 23,5 Bis zu 31,5 Bis zu 48 Bis zu 768

Nutzbare Kap. (TB) ,373 Bis zu 2,7 Bis zu 5,7 Bis zu 16,2 Bis zu 21,6 Bis zu 35,3 Bis zu 564

DD120 Für Außenstellen

Gateway Series

DD690 System

DD690g

DD580g

22

Data Domain – 10 Vorteile auf einen Blick !

Problemlose Einbindung in die vorhandene Backup-Software und Vereinfachung des Managements

Datenreduktion von über 90% möglich (variables SI auf Segmentebene) Reduzierung von Wiederherstellungszeiten durch viel längere Aufbewahrung

der Backupläufe auf Disk Extreme Datensicherheit durch eingesetzte Technologie z.B. RAID 6,

Replikation, permanente Überprüfung der Daten auf Korruption (physisch und logisch)

Einfache Umsetzung von DR-Konzepten durch Replikation Außenstellen mit Replikation über WAN-Leitung anbinden Performantes Backup/Recovery gerade auch in unternehmenskritischen

Umgebungen und bei Datenbanken Optimal auch in virtuellen Umgebungen mit VMware Kosten für weniger benötigte Dokumente reduzieren (Speicherung von

Archiv- und Backup-Daten auf der gleichen Data Domain Appliance) Green-IT: drastische Reduktion der Stromkosten, des Platzbedarfes und der

Klimakosten

23

Was beim Thema DeDup berücksichtigt werden sollte

Ist die Datenstruktur DeDup fähig ?

Gibt es Referenzen mit meiner Applikation ?

Können Außenstellen mit eingebunden werden ?

Kann ein Leistungsfähiges DR–Konzept erstellt werden ?

Technologie: Online oder Postprozess / CPU- oder Platten-basiert /

fixe oder variable Blöcke?

VTL oder Filesystem ?

Managementaufwand & Sicherheit des Systems (bspw. Metadaten,

Datenkorruption, Selbstheilung, RAID-Typ, Gegenmaßnahmen zur

Fragmentierung) ?

Implementierungsaufwand ?

24

Fortune 1000 Kunden

Technology

Telecom

Public Sector

Media/Entertainment

Healthcare

Industrial/Auto

Consumer/Retail

Financial Services

Source: Data DomainSource: Data Domain

25

Kunden in Deutschland

EMC NetWorker

Gateway mit EMC Clariion Speicher

4 TB Daten

Oracle, Mail und Flat File

4 Wochen retention

SAN

26

Kunden in Deutschland

“Data Domain hat unsere Erwartungen mehr als erfüllt, in dem bei hoher Performance sehr gute DeDuplication Werte erreicht werden und der Betrieb absolut problemlos und zuverlässig läuft”(Peter Langwieder)

27

Kunden in Deutschland

“Die Betreuung und der Know-How Transfer … hat sehr gut funktioniert und durch den Test konnte schon im Vorfeld die hervorragende Funktionsweise der DeDuplication der Data Domain Lösung ermittelt werden. Dies hat sich mittlerweile im produktiven Praxisbetrieb bestätigt.”(Ljudevic Katovic)

28

Data Domain …the proven way to do DeDuplication