Technical Review Beschleunigung des Wandels zu künstlicher ... · KI-Bibliotheken,...

Das vorliegende ESG Lab Review wurde von Dell EMC in Auftrag gegeben. Seine Verbreitung erfolgt mit Genehmigung von ESG.

© 2018 von The Enterprise Strategy Group, Inc. Alle Rechte vorbehalten.

Zusammenfassung

In diesem ESG Technical Review werden Dell EMC Ready Solutions for AI evaluiert. Der Schwerpunkt der Evaluierung liegt auf der Performance und Benutzerfreundlichkeit der Ready Solutions for AI mit optimierten Designs für maschinelles Lernen und Deep Learning. Zur Validierung der Performance des vollständigen Stacks wurden die Bilder pro Sekunde gemessen, die beim Training der AlexNet- und ResNet50-Deep-Learning-Netze verarbeitet wurden. Außerdem wurde evaluiert, wie die integrierten Lösungen die KI-Bereitstellung vereinfachen und beschleunigen können. In einer GPU-beschleunigten Umgebung übertraf das Deep Learning mit dem NVIDIA-Design auf Isilon die Konkurrenz bei der Trainingszeit deutlich. Es bot beim neuronalen AlexNet-Deep-Learning-Netz eine 2,9-mal höhere Leistung als ein Mitbewerber und beim neuronalen ResNet50-Deep-Learning-Netz eine 2,3-mal höhere Leistung als ein anderer Mitbewerber.

Die Herausforderungen Durch Fortschritte bei der Mikroprozessorarchitektur und dem Design, wie der Möglichkeit zur Kombination Hunderter oder Tausender Prozessorkerne auf einem einzigen Chip, erreicht ein einziger Grafikprozessor (GPU) heute bis zu 100 teraFLOPS1. Diese enorme Menge an Rechenleistung beschleunigt das Training von massiven parallelen und iterativen KI-Modellen (künstliche Intelligenz), wodurch Deep und Machine Learning zu praktikablen Technologien für jedes Unternehmen werden, um zusätzlichen Wert aus Daten zu gewinnen.

Maschinelles Lernen und Deep Learning werden in der Regel für unstrukturierte Daten wie Bilder, Video und Streaming-Sensordaten genutzt. Diese Daten sind häufig nicht komprimierbar und wachsen schnell von Dutzenden TB auf Dutzende PB. Unternehmen stehen vor der Herausforderung, KI-Lösungen zu entwickeln, die sowohl Daten in großem Umfang managen als auch die Netzwerk- und Speicherperformance bereitstellen können, um der datenhungrigen, stark parallelisierten Rechnerschicht gerecht zu werden.

Noch steckt KI jedoch in den Kinderschuhen und lässt einen standardisierten Infrastrukturstack vermissen. Daher nimmt die Entwicklung von KI-Infrastrukturen in Unternehmen und die Evaluierung der Auswirkungen auf das Geschäft erhebliche Zeit in Anspruch. Laut einer aktuellen ESG-Studie erwarten 19 % der Unternehmen, in den nächsten 2 Jahren keinen geschäftlichen Nutzen aus ihren KI-Bemühungen zu ziehen. Weitere 32 % der Unternehmen gehen davon aus, dass es mehr als ein Jahr dauern wird, und 23 % glauben, dass es mehr als 9 Monate dauern wird (siehe Abbildung 1).2

11 teraFLOPS entspricht 1 Million (1012) Gleitkommaoperationen pro Sekunde. 2 Quelle: ESG-Studie, Machine Learning and Artificial Intelligence Trends, Juni 2017. Sofern nicht anders angegeben, stammen alle Verweise und Diagramme im vorliegenden Technical Review aus dieser Studie.

Abbildung 1. Time-to-Value-Erwartungen für KI

Source: Enterprise Strategy Group

Technical Review

Beschleunigung des Wandels zu künstlicher Intelligenz mit Dell EMC Ready Solutions for AI Datum: August 2018 Verfasser: Jack Poller, Senior Analyst

Enterprise Strategy Group | Getting to the bigger truth.™

Technical Review: Beschleunigung des Wandels zu künstlicher Intelligenz mit Dell EMC Ready Solutions for AI 2


Dell EMC Ready Solutions for AI

Mit Ready Solutions for AI hat Dell EMC standardisierte Infrastrukturstacks

für maschinelles Lernen (ML) und Deep Learning (DL) entwickelt, um die

Einführung im Unternehmen zu beschleunigen.

Zwei Dell EMC Ready-Lösungen für AI sind heute verfügbar:

Maschinelles Lernen mit Hadoop – optimiert für maschinelles Lernen

und Deep Learning mit Hadoop und folgenden Komponenten:

o Cloudera Data Science-Cluster: 1 Head-Knoten und 2 Worker-

Knoten mit 960 GB bis 1,92 TB direkt angebundenem SSD-Speicher

o Hadoop-Knoten: ab 3 Infrastrukturknoten und 7 Worker-Knoten

mit Skalierung auf Tausende von Knoten

o 25-GbE-Ethernet-Netzwerk mit Dell EMC Open Network Switches

o Software-Stack: Cloudera Manager, Cloudera Data Science

Workbench, Cloudera Enterprise Data Hub, Spark und

Dell EMC Data Science Provisioning Engine

o Frameworks/Bibliotheken: BigDL

Deep Learning mit NVIDIA – Optimiert für Deep Learning mit

GPUBeschleunigung:

o 1 PowerEdge 740 Head-Knoten: Head-Knoten mit 2 Prozessoren und 12-mal 10 TB direkt angebundenen

SAS-Laufwerken

o 4 PowerEdge C4140 Worker-Knoten: Knoten mit 2 Prozessoren und 384 GB Arbeitsspeicher und bis

zu 4 NVIDIA Tesla V100-GPUs jeweils mit horizontaler Skalierungsmöglichkeit auf Tausende von Knoten

o 100-Gbit/s-Netzwerke mit Mellanox-Infiniband-Switchen und Dell EMC Open Network-Top-of-Rack-Switchen

o Speicher: Isilon F800-All-Flash-Scale-out-NAS, Optionen für 96, 192 oder 924 TB Flash-Kapazität pro

Gehäuse, 15 GB/s Bandbreite pro Gehäuse, 8 40-GbE-Netzwerke pro Gehäuse. Scale-out auf bis zu

33 PB und bis zu 540 GB/s Bandbreite pro Cluster.

o Software-Stack: Bright Cluster Manager for Data Science und Dell EMC Data Science Provisioning Portal

o Frameworks/Bibliotheken: Caffe 2, MXNET, TensorFLow, NVIDIA CUDA Deep Neural Network-Bibliothek

(cuDNN) und NVIDIA CUDA Basic Linear Algebra Subroutines (cuBLAS).

Zur Beschleunigung der Einführung umfassen Dell EMC Ready Solutions for AI Bereitstellungsservices und einen

zentralen Supportkontakt für den gesamten Hardware- und Software-Stack.

Diese validierten Hardware- und Software-Stacks kombinieren Dell EMC PowerEdge-Server, Dell EMC Isilon-Speicher, NVIDIA-

GPUs, Hochgeschwindigkeitsnetzwerke, Data-Science-Software sowie KI-Bibliotheken und -Frameworks in vorkonfigurierten,

skalierbaren und optimierten Systemen. Unternehmen, die Ready Solutions for AI bereitstellen, profitieren von:

Schnelle Bereitstellung: Statt das Unternehmen dazu zu zwingen, Komponenten für einen KI-Stack auszuwählen, zu konfigurieren, zu integrieren und zu optimieren, handelt es sich bei Dell EMC Ready Solutions for AI um validierte Systeme, die von Dell EMC Services bereitgestellt werden, wodurch die Bereitstellung einer KI-Umgebung von Monaten auf Wochen beschleunigt wird, während die Anforderungen an das Know-how und betriebliche Risiken reduziert werden.

Vereinfachte Konfiguration: Beide Designs steigern die Produktivität von Data Scientists, indem sie Selfservice-Zugriff auf Ressourcen für maschinelles Lernen und Deep Learning anbieten, darunter Frameworks und Bibliotheken wie BigDL, TensorFlow, Caffe, Neon, cuDNN und cuBLAS. Das Design für Deep Learning mit NVIDIA umfasst das Dell EMC Data Science Provisioning Portal, mit dem Data Scientists ihre Arbeitsumgebung mit nur 5 Klicks konfigurieren können. Maschinelles Lernen mit Hadoop umfasst die Cloudera Data Science Workbench und Dell EMC Data Science Engines – Container, die mit Data Science Workbench zusammenarbeiten, um das BigDL-Framework zu konfigurieren.

Vereinfachte IT-Vorgänge: Jedes Design umfasst eine einzige Konsole für das Monitoring der Integrität und die Konfiguration des Clusters. Deep Learning mit NVIDIA umfasst den Bright Cluster Manager von Bright Computing, der Integrationen mit Dell Remote Access Controller für PowerEdge-Server zur Überwachung und Verwaltung der



Integrität und Konfiguration des Clusters bereitstellt. Maschinelles Lernen mit Hadoop umfasst Cloudera Manager für das Monitoring und Konfigurationsmanagement des Hadoop-Clusters.

Schnelle Skalierbarkeit: Dell EMC entwickelte Ready Solutions for AI für schnelle Skalierbarkeit. Unternehmen können die Rechenleistung erhöhen, indem sie dem Cluster mit nur wenigen Mausklicks Rechnerknoten hinzufügen. Durch das Hinzufügen zusätzlicher Knoten kann der Speicher unterbrechungsfrei skaliert werden, wodurch die Speicherleistung linear gesteigert wird.

Die Möglichkeiten und Herausforderungen von KI

Während künstliche Intelligenz bereits auf den Beginn des Computerzeitalters zurückgeht, ist die praktische Anwendung von maschinellem Lernen und Deep Learning ein relativ neues Feld, auf dem ein allgemeiner Mangel an Fachwissen und Empfehlungen zu verzeichnen ist. Die Erzielung aussagekräftiger Ergebnisse, die sich auf die Geschäftsergebnisse auswirken, erfordert enorme Rechenleistung zur Verarbeitung ebenso enormer Datenmengen mit komplexen Software-Frameworks und -Bibliotheken.

Die Erstellung eines KI-Infrastrukturstacks erfordert sowohl KI-Know-how zur Zusammenstellung der richtigen Kombinationen von Softwarelösungen und -systemen als auch Integrations-Know-how zur Zusammenstellung und Abstimmung der richtigen Kombinationen von Hardwarelösungen für ein effizientes, skalierbares und kostengünstiges System.

IT-Mitarbeiter und Data Scientists müssen bei der Auswahl und Beschaffung von Rechenservern, GPUs, Speicher und Netzwerk eng zusammenarbeiten. Sobald alle Systeme eingetroffen, physisch installiert und eingeschaltet sind, müssen Speicher, Netzwerk und Betriebssysteme von der IT installiert, konfiguriert und getestet werden. Als Nächstes müssen die IT- und/oder Data-Science-Teams die ausgewählten Konfigurationen von Open-Source-Frameworks, -Bibliotheken und -Orchestrierungssoftware für KI installieren, konfigurieren, testen und anpassen. Schließlich müssen die Data Scientists das KI-System validieren. Nach diesem langwierigen Prozess, der Monate dauern kann, können Data Scientists mit der Erstellung von KI-Modellen beginnen. Dabei können minimale Änderungen im Stack zu einer mittelmäßigen Performance oder sogar zu einem Ausfall führen.

Die großen Public-Cloud-Anbieter bieten GPU-beschleunigte KI-Rechnerinstanzen und KI-Bibliotheken, mit denen Unternehmen ihre KI-Programme in kürzerer Zeit einführen können. Den Public-Cloud-Angeboten mangelt es jedoch an Referenzkonfigurationen, Kundenlösungszentren und Beratung, sodass Data Scientists selbst lernen müssen, wie sie ihren KI-Stack am besten konfigurieren und optimieren. Darüber hinaus können die Datenlokalität und Datenverschiebung zwischen Cloud, Edge und Core sowohl die Performance als auch die Kosten beeinträchtigen, wodurch eine On-Premise-Lösung häufig die bessere Wahl ist.

KI-Modelle liefern bessere Ergebnisse mit größeren Datenmengen und Data Scientists analysieren oft Terabyte bis Petabyte an Daten. Unternehmen, die die Public Cloud verwenden, müssen CPU-Zeit, GPU-Zeit, Datenspeicher, Dateneingang (Netzwerkkosten für die Übertragung von Daten in die Public Cloud) und wiederkehrende Inferenzgebühren zahlen. Zwar können bei Nutzung der Public Cloud Investitionsausgaben in Betriebskosten umgewandelt werden, die Kosten sind jedoch äußerst variabel und möglicherweise nicht vorhersehbar. Wenn KI-Modelle nicht konvergieren, können Unternehmen von monatlichen Rechnungen überrascht werden, die höher als erwartet ausfallen.

Vereinfachung der KI-Bereitstellung

ESG begann die Evaluierung mit der Untersuchung, wie die Dell EMC Ready Solutions for AI die Bereitstellung des KI-Infrastrukturstacks vereinfachen und die Dauer bis zum Erzielen erster Ergebnisse verkürzen. Dell EMC Ready Solutions for AI werden mit allen erforderlichen Software-, Rechner-, Speicher- und Netzwerkhardwarekomponenten ausgeliefert und vor Ort von Dell EMC Professional Services installiert.

IT und Data Scientists können die zeitaufwendige und komplizierte Installation und Konfiguration von Betriebssystemen, KI-Bibliotheken, Orchestrierungs- und Managementsoftware überspringen und so Wochen bis Monate Aufwand sparen.

Die Lösungen umfassen eine Selfservice-Umgebung für Data Scientists, um Clusterressourcen zu erhalten sowie Frameworks und Bibliotheken für ihre Arbeit zu konfigurieren. Diese GUI-Systeme erleichtern Data Scientists und IT die Konfiguration ihrer Arbeitsumgebung und das Management des Clusters. Im Gegensatz zur Vergangenheit, wo Data Scientists in der Regel die Befehlszeile nutzten, um ihre Umgebung zu konfigurieren, automatisieren und orchestrieren diese GUIs viele Aufgaben und ermöglichen es ihnen, Cluster als eine Einheit zu verwalten, Hardware, Betriebssystem und Software bereitzustellen, den Clusterbetrieb zu managen sowie Workloads bereitzustellen und Ergebnisse abzurufen. Deep Learning mit NVIDIA umfasst beispielsweise das Data Science Provisioning Portal.



Abbildung 2. Aufwand für herkömmliche KI-Infrastruktur und Dell EMC Ready Solutions for AI


ESG meldete sich bei der Data Science Provisioning Portal-GUI an. Wie in Abbildung 3 gezeigt, erforderte das Dell EMC

Data Science Provisioning Portal nur 3 Mausklicks, um die Rechner- und Speicherressourcen, die Bibliothekmodule und

die Framework-Module auszuwählen. Anstatt Befehlszeilen zu verwenden, konnten wir unsere KI-Modelle über die GUI

trainieren und Einblicke und Ergebnisse in der GUI erhalten.

Abbildung 3. Dell EMC Data Science Provisioning Portal


Wir haben ebenfalls den im maschinellen Lernen mit Hadoop enthaltenen Cloudera System Manager geprüft. Dies

ist in Abbildung 4 zu sehen. Die Ansicht „Dashboard“ zeigt den Status, den Durchsatz und die Last für jeden Cluster und

die Komponenten des Clusters. Mithilfe der Pull-down-Menüs können wir den gesamten Cluster als einzelne Entität

auswählen und managen oder einzelne Clusterkomponenten managen.



Abbildung 4. Cloudera System Manager


Bedeutung

Maschinelles Lernen und Deep Learning sind unausgereifte Technologien und der vollständige KI-Infrastrukturstack ist komplex und erfordert die Integration einer Vielzahl von Hardware- und Softwarekomponenten von vielen Anbietern – ein komplizierter Prozess, der viele Monate dauern kann. Die Auswahl der falschen Komponenten oder die falsche Konfiguration der Integration kann zu E/A-Engpässen und damit zu einer schlechten Performance sowie zu Systemfehlern führen, die miserable Ergebnisse liefern und die Rendite von KI-Investitionen beeinträchtigen.

ESG bestätigte, dass die Dell EMC Ready Solutions for AI eine vollständige, integrierte Lösung mit CPUs, GPUs, Netzwerken und Scale-out-Speicher bereitstellten. Nach der Installation von Dell EMC sind dank der enthaltenen Software für das Systemmanagement nur wenige Mausklicks von der Inbetriebnahme bis zur Bewertung von KI-Modellen notwendig. Statt zusammen mit der IT Zeit für die Auswahl und Beschaffung von Komponenten, die Konfiguration des Netzwerks oder die Installation und Konfiguration von Betriebssystemen, Bibliotheken und Frameworks aufzuwenden, können Data Scientists sofort mit dem Erstellen von KI-Lösungen loslegen. Dadurch wird die Bereitstellungszeit von Monaten auf Wochen verkürzt.

Schnellere Entwicklung von KI-Modellen

ESG hat untersucht, wie die Prozesse für das Modelltraining von Dell EMC Ready Solutions for AI beschleunigt werden.

Wir begannen mit einer Umgebung, die aus dem Deep-Learning-System mit NVIDIA bestand, wie in Abbildung 5 gezeigt.

Die Lösung bestand aus einem Rechnerkomplex mit 5 Servern. Für das Systemmanagement wurde ein als Head-Knoten

bestimmter Server verwendet. Die übrigen 4 Server mit jeweils 2 Intel Xeon Gold 6148 20-Core-Prozessoren, 384 GB

RAM und 4 NVIDIA Tesla V100-GPUs wurden als Rechnerknoten verwendet. Wie getestet, enthielt das System ein

einzelnes Gehäuse aus Isilon F800-All-Flash-Scale-out-NAS mit 15 GB/s Bandbreite und 192 TB Kapazität. Alle Server

wurden über Mellanox-Switche mit 100-Gbit/s-InfiniBand und der Isilon-Speicher mit acht 40-Ethernet-Links verbunden.



Abbildung 5. Prüfstand für Ready Solutions für Deep Learning


ESG hat 2 verschiedene Branchenstandard-Benchmarks für GPU-beschleunigte Infrastrukturstacks verwendet, um die

Performance der Dell EMC Ready Solution for AI für Deep Learning mit NVIDIA zu charakterisieren. Wir begannen mit

AlexNet, einem Bildklassifizierer, der Bilder in 1.000 Objektkategorien wie Tastatur, Maus, Bleistift und viele Tiere

einordnen kann.3 Das 2012 veröffentlichte neuronale Netz AlexNet war das erste große konvolutionale tiefe Netz,

das GPUs nutzte. Es wird weithin als Auslöser der letzten KI-Revolution betrachtet.

Der Benchmark trainiert das AlexNet-Modell mithilfe des ImageNet-Datasets, einem De-facto-Standard für Deep-

Learning-Training. Das 143 GB große ImageNet-DataSet enthält 14.197.122 Bilder aus 21.841 verschiedenen Kategorien.

Um reale KI-Entwicklungsszenarios widerzuspiegeln, haben wir Verzerrungen (Bildvorverarbeitungsschritte)

herbeigeführt. Außerdem haben wir durch Anwendung 10 zufälliger Data-Augmentation-Methoden auf die

vorhandenen JPEG-Bilder ein neues Dataset von 1,4 TB und 141 Millionen Bildern generiert. Das 1,4 TB große Dataset

war zu groß für den Arbeitsspeicher, wodurch das System wiederholt Daten aus dem Isilon F800 abrufen musste. So

wurde sichergestellt, dass der Benchmark die gesamte Systemleistung einschließlich Rechner, Netzwerk und Speicher

belastet und gemessen hat.

Um die maximale Performance und Skalierbarkeit des Systems während des Modelltrainings zu ermitteln, führten

wir den AlexNet-Benchmark mit wechselnder GPU-Anzahl mehrfach durch und zeichneten die entsprechenden

Leistungskennzahlen auf. Abbildung 6 zeigt die Anzahl der pro Sekunde verarbeiteten Bilder beim Training von AlexNet.

Außerdem sind die zuvor veröffentlichten Ergebnisse eines Anbieters mit einer aus Servern, NVIDIA Tesla V100-GPUs

und der angepassten All-Flash-Speicherlösung des Anbieters bestehenden Lösung aufgeführt.

3 https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf

http://www.image-net.org/

https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf



Abbildung 6. Rechnerdurchsatz von Dell EMC Ready Solutions for AI für Deep Learning mit NVIDIA bei AlexNet


Bedeutung der Zahlen Mit 4 GPUs verarbeitet Dell EMC Ready Solutions for Deep Learning fast 7.700 Bilder pro Sekunde, wobei etwas

mehr als 5 Stunden benötigt und 1,9-mal mehr Bilder pro Sekunde als bei Anbieter A verarbeitet werden.

Mit acht GPUs verarbeitet Dell EMC Ready Solutions for Deep Learning mehr als 14.250 Bilder pro Sekunde, was die

Analysezeit auf 2,77 Stunden verkürzt. Es werden 2,9-mal mehr Bilder pro Sekunde als bei Anbieter A verarbeitet.

Als das System auf 16 GPUs skaliert wurde, verarbeitete es mehr als 27.000 Bilder pro Sekunde. Der Durchlauf

wurde in nur 86,5 Minuten abgeschlossen. Hinweis: Anbieter A hat keine Ergebnisse für die Benchmark-Variante

mit 16 GPUs veröffentlicht.

KI-Algorithmen profitieren von paralleler Verarbeitung und Unternehmen können das Modelltraining durch mehr

parallel geschaltete Prozessoren beschleunigen. Die Möglichkeit zur Aufrechterhaltung des Datendurchsatzes und der

Verarbeitungsgeschwindigkeit bei Skalierung des Systems auf mehr GPUs – die Skalierungseffizienz – sorgt dafür, dass

Unternehmen durch zusätzliche Verarbeitungsleistung beim Training von KI-Modellen die Rendite ihrer Investition

maximieren können. Tabelle 1 zeigt die Skalierungseffizienz jeder Lösung beim Training von AlexNet.

Tabelle 1: Skalierungseffizienz von Dell EMC Ready Solutions for AI für Deep Learning mit NVIDIA bei AlexNet

GPUs Dell EMC Ready Solutions for AI

Deep Learning mit NVIDIA Anbieter A

4 1,00 1,00

8 0,93 0,58

16 0,89 Quelle: Enterprise Strategy Group

Bedeutung der Zahlen Dell EMC Ready Solutions for AI für Deep Learning mit NVIDIA skalieren effizient. Bei Verdoppelung des Systems

auf acht GPUs wurden 93 % der Baseline-Performance (4 GPUs) aufrechterhalten.

Deep Learning mit NVIDIA war nahezu genauso effizient, als die Systemgröße vervierfacht wurde. Bei der Skalierung

von 4 auf 16 GPUs wurden 89 % der Baseline-Performance erreicht.



Die Lösung von Anbieter A war nicht annähernd so effizient und konnte nur 58 % der Baseline-Performance

erreichen, als die Systemgröße von 4 auf 8 GPUs verdoppelt wurde.

Tiefe neuronale Netze können Millionen oder sogar Hunderte Millionen von Parametern (P) aufweisen. Als Faustregel

gilt: Soll sichergestellt werden, dass ein Modell fähig ist zu generalisieren (also eine hohe Prognosegenauigkeit für jeden

beliebigen Input liefern kann), sind P2 Datenpunkte erforderlich. Daher nutzen Unternehmen für das Training von

Deep-Learning-Modellen mehrere Terabyte oder sogar Petabyte große Datasets. Die KI-Infrastruktur muss neben

der rohen Rechnerleistung die Performance von Speicher- und Datentransportsystemen maximieren und skalieren.

Abbildung 7 zeigt den Datendurchsatz und den Durchsatz pro GPU beim AlexNet-Training mit dem Ready Solutions

for AI-System für Deep Learning mit NVIDIA.

Abbildung 7. Datendurchsatz von Dell EMC Ready Solutions for AI für Deep Learning mit NVIDIA bei AlexNet


Bedeutung der Zahlen Mit 4 GPUs wurden von Ready Solutions for AI für Deep Learning mit NVIDIA fast 870 MB/s vom Isilon F800-Speicher

übertragen. Bei Skalierung der Lösungen auf 16 GPUs übertrug die Lösung mehr als 3.000 MB/s vom Speicher.

Während der Tests erreichten die GPUs eine durchschnittliche Auslastung von fast 95 %. Diese hohe Auslastung

zeigt, dass die Lösung für Deep Learning mit NVIDIA und Isilon für Scale-out optimiert wurde und keine

E/A-Engpässe bei AlexNet-Trainings-Workloads mit hoher Bandbreite auftreten.

Bei der 4-GPU-Lösung wurden 217 MB/s an jede GPU übertragen. Mit einem Durchsatz von bis zu 15 GB/s in einem

einzigen Isilon-Gehäuse kann das System für Deep Learning mit NVIDIA einen AlexNet-Workload mit bis zu 64 GPUs

pro Isilon-Gehäuse vollständig auslasten. Das Hinzufügen von zusätzlichen Isilon-Knoten führt zu einer linearen

Erhöhung der Speicherleistung zur Unterstützung zusätzlicher GPUs. Theoretisch kann die Isilon F800 mit einer

maximalen Bandbreite von 540 GB/s pro Cluster 2.845 GPUs unterstützen, um vergleichbare KI-Aufgaben wie

AlexNet zu verarbeiten. Hinweis: Die tatsächliche Anzahl der von Isilon unterstützten GPUs variiert je nach

Algorithmustyp, Workload-Typ und Datensatzgröße.



Als Nächstes haben wir das Deep Learning mit NVIDIA mit ResNet50, einem hochpräzisen Bildklassifizierer, der 2015

von Microsoft Research veröffentlicht wurde, getestet.4 Der Benchmark trainiert das ResNet50-Modell, das rechnerisch

weitaus komplexer als AlexNet ist, und nutzt dasselbe 10-mal replizierte 1,4 TB große ImageNet-Dataset, das für den

AlexNet-Benchmark verwendet wurde. Abbildung 8 zeigt die Anzahl der pro Sekunde verarbeiteten Bilder beim Training

von ResNet50. Außerdem sind die veröffentlichten Ergebnisse eines Anbieters mit einer aus Servern, NVIDIA Tesla

V100GPUs und der angepassten All-Flash-Speicherlösung des Anbieters bestehenden Lösung aufgeführt.

Abbildung 8. Rechnerdurchsatz von Ready Solutions for AI für Deep Learning with NVIDIA bei ResNet50


Bedeutung der Zahlen Mit 4 GPUs verarbeitete Deep Learning mit NVIDIA 2,2-mal mehr Bilder pro Sekunde als Anbieter B.

Der Leistungsvorteil von Dell EMC wurde bei Skalierung der Lösung auf 8 GPUs aufrechterhalten. Deep Learning

mit NVIDIA verarbeitete 2,2-mal mehr Bilder pro Sekunde als Anbieter B.

Der Leistungsvorteil von Dell EMC wurde bei Skalierung der Lösung auf 16 GPUs aufrechterhalten. Deep Learning

mit NVIDIA verarbeitete 2,3-mal mehr Bilder pro Sekunde als Anbieter B.

Tabelle 2 zeigt die Skalierungseffizienz jeder Lösung beim Training von ResNet50.

Tabelle 2: Skalierungseffizienz von Dell EMC Ready Solutions for AI für Deep Learning mit NVIDIA bei ResNet50

GPUs Dell EMC Ready Solutions für

maschinelles Lernen Vendor B

4 1,00 1,00

8 0,95 0,95

16 0,95 0,91 Quelle: Enterprise Strategy Group

4 https://arxiv.org/abs/1512.03385

https://arxiv.org/abs/1512.03385



Bedeutung der Zahlen Dell EMC Ready Solutions AI für Deep Learning mit NVIDIA skalieren effizient. Bei Verdoppelung und

Vervierfachung des Systems auf 8 bzw. 16 GPUs wurden 95 % der Baseline-Performance aufrechterhalten.

Die Lösung von Anbieter B wies eine Reduzierung der Effizienz bei Skalierung der Lösung auf. Bei einer Skalierung

von 4 auf 8 GPUs erreichte sie 95 % der Baseline-Performance. Bei einer Skalierung auf 16 GPUs erreichte die

Lösung jedoch nur 91 % der Baseline-Performance.

Abbildung 9 zeigt den Systemdatendurchsatz und den Durchsatz pro GPU beim ResNet50-Training für Deep Learning

mit NVIDIA.

Abbildung 9. Datendurchsatz von Dell EMC Ready Solutions for AI für Deep Learning with NVIDIA bei ResNet50


Bedeutung der Zahlen Mit 4 GPUs wurden von Ready Solutions for AI für Deep Learning mit NVIDIA mehr als 330 MB/s vom Isilon

F800-Speicher übertragen. Bei Skalierung der Lösungen auf 16 GPUs wurden mehr als 1.250 MB/s vom Speicher

übertragen.

Während der Tests erreichten die GPUs eine durchschnittliche Auslastung von fast 95 %. Diese hohe Auslastung

zeigt, dass die Lösung für Deep Learning mit NVIDIA und Isilon für Scale-out optimiert wurde und keine

E/A-Engpässe bei ResNet50-Trainings-Workloads mit hoher Bandbreite auftreten.

Bei einer 4-GPU-Lösung wurden 83 MB/s und bei einer 16-GPU-Lösung 78,6 MB/s an jede GPU übertragen.

Mit einem Durchsatz von 15 GB/s kann die Basisversion der Isilon F800 180 GPUs auslasten. Das Hinzufügen

zusätzlicher Isilon-Module erhöht die Speicherbandbreite und gleichzeitigen Verbindungen zur Unterstützung

zusätzlicher GPUs. Theoretisch kann die Isilon F800 mit einer maximalen Bandbreite von 540 GB/s 6.500 GPUs

unterstützen, um vergleichbare KI-Aufgaben wie ResNet50 zu verarbeiten. Hinweis: Die tatsächliche Anzahl

der von Isilon unterstützten GPUs variiert je nach Algorithmustyp, Workload-Typ und Datensatzgröße.


© 2018 von The Enterprise Strategy Group, Inc. Alle Rechte vorbehalten. www.esg-global.com [email protected] Tel.: +1 508 482-0188


Bedeutung Für KI gilt, dass komplexere Modelle, die mit größeren Datasets trainiert wurden, bessere Ergebnisse liefern. Bei Modellen mit Millionen von Parametern und Datasets im Größenbereich von Dutzenden TB bis Dutzenden von PB spielen hohe Leistung, hohe Parallelität sowie Scale-out-Rechner und -Speicher eine wichtige Rolle für Unternehmen, die aus ihren KI-Bemühungen zeitnahe Ergebnisse gewinnen möchten.

Die Untersuchungen von ESG zeigen, dass das 16-GPU-System von Dell EMC Ready Solutions for AI für Deep Learning mit NVIDIA das AlexNet-Modell mit 27.375 Bildern/s und das ResNet50-Modell mit 11.126 Bildern/s trainieren konnte. Die Dell EMC Scale-out-Lösung mit Isilon erwies sich als 2,2 bis 2,9-mal schneller als Systeme von 2 anderen Anbietern. ESG bestätigte außerdem, dass das Deep Learning mit NVIDIA die Verarbeitungsgeschwindigkeit bei Skalierung des Systems aufrechterhielt und bei Verdoppelung und Vervierfachung der GPUs 89 bis 95 % der Baseline-Performance erreichte. Dadurch wird sichergestellt, dass Unternehmen ihren Return on Investment maximieren können, wenn sie Rechner und Speicher skalieren, um die Entwicklung von KI-Modellen zu beschleunigen.

Die ganze Wahrheit

Unternehmen gehen davon aus, dass KI die nächste Technologie ist, die eine schnellere Bereitstellung von besseren Geschäftsergebnissen ermöglicht. Laut einer aktuellen ESG-Studie gehen 69 % der Befragten davon aus, dass ML und KI in naher Zukunft deutlich messbare Ergebnisse liefern werden. 17 % der Befragten geben an, dass KI und ML für die Strategie ihres Unternehmens von entscheidender Bedeutung sind.

Da es keinen standardisierten KI-Infrastrukturstack gibt, müssen Unternehmen unter Umständen Zeit, Aufwand und Kosten in die Auswahl, die Beschaffung, die Integration, die Konfiguration, das Testen und die Validierung ihres eigenen angepassten Stacks investieren. Dieser komplexe Prozess kann Monate dauern und das Unternehmen muss bei Beschaffung und Support viele Anbieter berücksichtigen. Die Nachteile von Public-Cloud-Lösungen sind eine hohe Kostenvariabilität sowie der Zeit- und Kostenaufwand für die Übertragung und Speicherung von Terabytes an Daten.

Mit Ready Solutions for AI hat Dell EMC standardisierte Infrastrukturstacks für maschinelles Lernen und Deep Learning entwickelt. Diese integrierten und validierten Hard- und Software-Stacks wurden auf die Beschleunigung von KIInitiativen hin abgestimmt und optimiert und verkürzen die Bereitstellungsdauer von Monaten auf Wochen. Ready Solutions for AI vereinfachen und beschleunigen die Bemühungen von Data Scientists mit Selfservice-Arbeitsumgebungen, in denen jeder Data Scientist seine eigene Umgebung aus einer Bibliothek von KI-Modellen und -Frameworks in nur 5 Klicks konfigurieren kann.

Die Untersuchungen von ESG haben gezeigt, dass diese Lösungen die Entwicklung von KI-Modellen beschleunigen können. Mit PowerEdge C4140-Servern, die mit (16) NVIDIA-GPUs und einem Gehäuse mit Isilon F800-All-Flash-Scale-out-NAS beschleunigt wurden, trainierten Dell EMC Ready Solutions for AI das AlexNet-Modell mit 27.735 Bildern pro Sekunde und das rechenintensivere ResNet50-Modell mit 11.126 Bildern pro Sekunde. Diese Ergebnisse waren 2,2 bis 2,9-mal schneller als die von anderen Anbietern veröffentlichten Ergebnisse.

Diese integrierten Lösungen für KI ließen sich effizient skalieren, wobei die GPUs bei Skalierung der Systeme von 4 auf 8 bzw. 16 GPUs eine Auslastung von 95 % erreichten und gleichzeitig 89 bis 95 % der Baseline-Performance erzielt wurden. Damit wird der Return on Investment maximiert, wenn mehr GPUs eingesetzt werden, um komplexere Probleme mit immer größeren Datasets zu lösen. Die hohe GPU-Auslastung und lineare Skalierung zeigen, dass die Lösung für Deep Learning mit NVIDIA und Isilon für Scale-out optimiert wurde und keine E/A-Engpässe bei KI-Trainings-Workloads mit hoher Bandbreite auftreten.

ESG empfiehlt den Unternehmen zu untersuchen, wie Dell EMC Ready Solutions for AI ihren Wandel zu KI erleichtern und beschleunigen können. Alle Marken sind das Eigentum ihrer jeweiligen Inhaber. Die in diesem Dokument enthaltenen Informationen stammen aus Quellen, die von The Enterprise Strategy Group (ESG) als

vertrauenswürdig eingestuft werden. Eine Gewähr kann jedoch von ESG nicht übernommen werden. Dieses Dokument kann Meinungen von ESG wiedergeben, die sich ändern können.

Das Dokument ist von The Enterprise Strategy Group, Inc. urheberrechtlich geschützt. Jegliche Vervielfältigung oder Verbreitung dieses Dokuments, ob ganz oder in Teilen, in gedruckter,

elektronischer oder sonstiger Form an nicht Empfangsberechtigte ohne die vorherige schriftliche Genehmigung von The Enterprise Strategy Group, Inc. stellt eine Verletzung des US-

amerikanischen Urheberrechts dar und wird zivil- bzw. strafrechtlich verfolgt. Falls Sie Fragen haben, wenden Sie sich bitte unter der Rufnummer +1 508 482-0188 an ESG Client Relations.

ESG Validation Reports sollen IT-Experten über IT-Lösungen informieren, die für Unternehmen jeder Art und Größe geeignet sind. ESG Validation Reports sind nicht dafür vorgesehen, den

Bewertungsprozess vor der Kaufentscheidung zu ersetzen, sondern sollen lediglich Einblicke in diese neuen Technologien vermitteln. Unser Ziel ist es, einige nützlichere Funktionen von IT-Lösungen zu

erkunden und zu zeigen, wie sie bei der Lösung echter Kundenprobleme und der Identifizierung der Bereiche, die Verbesserung benötigen, verwendet werden können. Die Sicht von Drittanbietern des

Experten des Teams von ESG Validation basiert auf unseren eigenen praktischen Tests, sowie auf Interviews mit Kunden, die diese Produkte in Produktionsumgebungen verwenden.

Technical Review Beschleunigung des Wandels zu künstlicher ... · KI-Bibliotheken,...

Documents

Transcript of Technical Review Beschleunigung des Wandels zu künstlicher ... · KI-Bibliotheken,...