Die Geschichte und Gegenwart der Cray-Supercomputer · Hauptseminar: Die Geschichte und Gegenwart...

Technische Universität Ilmenau Fakultät für Informatik und Automatisierung

Fachgebiet Rechnerarchitekturen

Betreuer: Dr.-Ing. Bernd Däne

Hauptseminar Sommersemester 2005

Zum Thema

Die Geschichte und Gegenwart der Cray-Supercomputer

Bearbeiter: Markus Malicke Termin: 07. Juli 2005

Hauptseminar: Die Geschichte und Gegenwart der Cray-Supercomputer - 2 -

Inhaltsverzeichnis

INHALTSVERZEICHNIS………………………………………………………………… 2 1. Einleitung……………………………………………………………………………….. 3 2. Vorbetrachtungen..…………………………………………………………………….. 3

2.1. Supercomputer – Eine Definition………………………………………………... 3 2.2. Einsatzgebiete von Cray-Supercomputern……………………………................. 5

3. Die Geschichte der Cray-Supercomputer…………………………………………….. 6

3.1. Seymour Cray – Ein Mann mit einer Vision…………………………………….. 6 3.2. Die Cray-1……………………………………………………………………….. 7 3.3. Die Cray-2……………………………………………………………………….. 9 3.4. Die Cray-3……………………………………………………………………….. 12 3.5. Der Cray XD1 Supercomputer…………………………………………………... 14

4. Schlussbemerkungen…………………………………………………………………… 18

4.1. Zusammenfassung……………………………………………………………….. 18 4.2. Ausblick………………………………………………………………………….. 19

ABKÜRZUNGSVERZEICHNIS………………………………………………………….. 20 ABBILDUNGSVERZEICHNIS…………………………………………………………… 21 LITERATURVERZEICHNIS..…………………………………………………………… 22


1 Einleitung Gegenstand und Ziel dieser Arbeit ist es, einen Einblick in den historischen Werdegang der Supercomputer der Marke „Cray“ zu gewähren. Dieser reicht von der Entstehung der ersten Systeme bis in die Gegenwart. Anhand von ausgewählten Beispielmaschinen werden technische Details näher erläutert. Dadurch ist die Beschreibung des technischen und auch wirtschaftlichen Entwicklungswegs möglich. Außerdem wird die gegenwärtige und perspektivische Bedeutung von Cray-Supercomputern gezeigt.

2 Vorbetrachtungen

2.1 Supercomputer – Eine Definition Wann spricht man von einem Supercomputer? Zunächst eine weniger seriöse Definition: Das erste Mal wurde der Begriff „Supercomputer“ 1920 in der Zeitschrift New York World erwähnt. Darin bezog sich der Begriff auf große Tabulatoren (gewöhnliche Rechen-maschinen), die von der Firma IBM hergestellt wurden. Die Grundfunktion war das Zählen und/oder Addieren mit Hilfe von Lochkarten. Der Tabulator wurde vom IBM-Gründer Herman Hollerith (1860-1929) erfunden [2]. Abbildung 2.1/1 zeigt eine solche Rechenmaschine. Es gibt ein breites Spektrum an Definitionen in Lexika. In einem Satz gesagt: Supercomputer sind die leistungsfähigste Form von Computern. Dazu führt der Brockhaus aus: „Supercomputer, ein Höchstleistungsrechner mit hoher Rechenleistung, Daten-speicherkapazität und Über-tragungsgeschwindigkeit …“ [1]. Demnach bezeichnet man Hoch-leistungsrechner als Super-computer, die zum Zeitpunkt ihrer Einführung im obersten überhaupt realisierbaren Leistungsbereich operieren. Im Gegensatz zu konventionellen Rechnern haben Supercomputer gewöhnlich mehr als einen

Abb. 2.1/1 Hollerith Typ III Tabulator (1932) [2]

„Ein Supercomputer ist jeder Computer, der IBM’s gegenwärtig schnellsten Computer aussticht – macht es also für IBM unmöglich, einen Supercomputer herzustellen.“ [Wird einem Professor an der University of South Wales zugeschrieben (1990)]


Prozessor, die auf einen sehr großen Hauptspeicher zugreifen und meistens parallel arbeiten. Höhere Performance wird mit MPP (Massively Parallel Processing) erreicht, wobei tausende von Prozessoren miteinander vernetzt sind. Ebenso besitzen sie eine sehr schnelle Ein-/Ausgabe-Fähigkeit. In Abbildung 2.1/2 werden einige interessante „Leistungen“ von speziellen Supercomputern genannt. Mittlerweile etablieren sich auch so genannte „Cluster“, bei denen (meist preiswerte) Einzelrechner zu einem großen Rechner vernetzt werden [3].

Abb. 2.1/2 „Leistungen“ spezieller Großrechner [3] Die schnellsten Supercomputer werden halbjährlich in der Top-500-Liste aufgeführt. Das Projekt wurde 1993 gestartet, um Trends im „High Performance Computing“ (HPC) feststellen zu können. Als Bewertungsgrundlage dient der Linpack-Benchmark. Die 24. Top-500-Liste wurde am 8. November 2004 während der „Supercomputer Conference“ (SC2004) in Pittsburgh, PA herausgegeben. Auf Platz 1 befindet sich der BlueGene/L der Firma IBM (siehe Abbildung 2.1/3). Ein aktuelles System der Firma Cray Inc. erscheint auf Platz 29. Die Werte Rmax und Rpeak beziehen sich auf den Linpack-Benchmark und werden in GFlops angegeben (1 Milliarde Fließkommazahloperationen pro Sekunde). Rmax steht für die maximale, im Test erreichte Leistung, während Rpeak die theoretische Spitzenleistung angibt. Das Jahr kennzeichnet den Installationszeitpunkt. Rang Standort

Land/Jahr Computer / ProzessorenHersteller

Computer Familie Model

Zweck Rmax Rpeak

1 IBM/DOE United States/2004

BlueGene/L beta-System BlueGene/L DD2 beta-System (0.7 GHz PowerPC 440) / 32768 IBM

IBM BlueGene/L BlueGene/L

Forschung 70720 91750

2 NASA/Ames Research Center/NAS United States/2004

Columbia SGI Altix 1.5 GHz, Voltaire Infiniband / 10160 SGI

SGI Altix SGI Altix 1.5 GHz, Infiniband


3 The Earth Simulator Center Japan/2002

Earth-Simulator / 5120 NEC

NEC Vector SX6


.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

29 Oak Ridge National Laboratory United States/2004

Cray X1 / 504 Cray Inc.

Cray X1 Cray X1

Forschung 5895 6451

Abb. 2.1/3 Auszug: 24. Top-500-Liste (11/2004) [4]

Leistungen* von Supercomputern

Sämtliche Berechnungen aller Computer weltweit von 1960 bis 1970 könnte der Earth Simulator (Yokohama, Japan) in etwa 35 Minuten durchführen.

Deep Blue 2 (Hochleistungsrechner von IBM) schlägt als erster Computer einen Schachweltmeister in einem offiziellen Zweikampf.

Yasumasa Kanada bestimmt die Kreiszahl π mit einem Hitachi SR8000 der Uni Tokyo auf 1,24 Billionen Stellen genau.

* im weiteren Sinne


Die 25. Top-500-Liste wird auf der 20. „International Supercomputer Conference“ (ISC2005) in Heidelberg, Deutschland vom 21. – 24. Juni 2005 veröffentlicht.

2.2 Einsatzgebiete von Cray-Supercomputern Supercomputer der Firma Cray Inc. finden heute auf vielerlei Weise Anwendung in der Industrie, in Wissenschaft und Forschung, in Regierungseinrichtungen, beim Militär, usw. Dabei sind komplexe Problemstellungen mit vielen voneinander abhängigen Variablen typische Beispiele für das Einsatzgebiet. Gerade für die Vorhersage natürlicher Ereignisse,

wie Hurrikans (Abbildung 2.2/1), Wetter und Klima-veränderungen, sind Supercomputer unverzichtbar. Die Modellierung spielt eine Schlüsselrolle bei der Untersuchung und Vorhersage. Supercomputer sind dabei notwendig, um die physikalischen und chemischen Prozesse zu simulieren, die den natürlichen Phänomenen zugrunde liegen. Sie unter-stützen Wissenschaftler dabei, den globalen Kohlenstoff-zyklus zu studieren, und zu ermitteln, ob man den CO2-Gehalt verringern kann und dadurch die globale Erwärmung. Man benötigt immer größere Rechenleistung und Speicher-kapazität, um komplexere Systeme zu modellieren, und

Modelle schnell genug zu simulieren. Nur so kann das Wetter vorhergesagt werden, bevor es eintritt. Das Oak Ridge National Laboratory, die Korea Meteorological Administration, das Institutio Nacional de Meteorologia (INM) in Spanien u. a. benutzen Cray-Supercomputer für die Modellierung und Vorhersage von Wetter und Klima. Ein weiteres Einsatzgebiet von Cray-Systemen ist die pharmazeutische Industrie. Kunden sind z.B. das Artic Regional Supercomputing Center, das Army High Performance Computing Research Center, Bionumerik Pharmaceuticals und das South African National Bioinformatics Institute. Ziel ist es, die Wirkung und Sicherheit lebensrettender Arzneimittel schneller und gründlicher festzusetzen, bevor man Zeit und Geld in klinische Versuche investiert. Das Entschlüsseln und Aufzeichnen des menschlichen Genoms war der Anfang einer neuen Ära. Durch Vorstöße in der Labortechnologie, wie z.B. Massenspektrometrie, erfährt man eine Überflutung mit Daten. Damit man dieses immense Datenvolumen effektiv bearbeiten kann, müssen medizinisch-wissenschaftliche Anwendungen und die Computer-systeme, auf denen sie laufen, miteinander Schritthalten. Deswegen wird ein höherer Level an Leistung gefordert. Die grundlegende und angewandte wissenschaftliche Forschung im Bereich Physik, Fluiddynamik, Thermodynamik, Testen im Windkanal, Signalanalyse und Chemie fordert immer mehr den Einsatz von Supercomputern. Die Helmut Schmidt Universität in Hamburg, das NASA Ames Research Center in den USA und das Pacific Northwest National Laboratory des U.S. Department of Energy sind drei von mehreren Einrichtungen, die für ihre Untersuchungen Supercomputer der Firma Cray Inc. verwenden. Produktentwickler auf der ganzen Welt stützen sich vermehrt auf den CAE-Entwurf, um die Kosten für neue Produktentwicklungen zu reduzieren. Dieser rechnergestützte Entwurf macht es möglich, komplexere Designaufgaben in kurzer Zeit zu lösen. Da die Modelle immer größer und komplexer werden, müssen die Computer, auf denen die CAE-Werkzeuge laufen,

Abb. 2.2/1 Hurrikan


dem entsprechend mehr Leistung und Geschwindigkeit zur Verfügung stellen. Einrichtungen und Firmen wie Boeing, Ford Motor Company und das Army High Performance Computing Research Center (AHPCRC) verwenden Cray-Systeme [5]. 1978 wurde die „Cray User Group“ (CUG) gegründet. Sie ist eine unabhängige, freiwillig organisierte, internationale Vereinigung von Mitgliedsorganisationen, die Cray Inc. Computersysteme besitzen oder benutzen – mit Nachdruck auf high-end-Leistung, technische Berechnung und Visualisierung. Die CUG hat es sich zur Aufgabe gemacht, die Führung und den Informationsaustausch zu sichern, um die Entwicklung und effektive Benutzung von Hochleistungscomputersystemen zu gewährleisten, wobei Geschäftsfähigkeit und Forschungsobjekte für CUG - Mitglieder geschaffen werden [9].

3 Die Geschichte der Cray-Supercomputer

3.1 Seymour Cray – Ein Mann mit einer Vision Die Suche nach dem Anfang der Cray-Computersysteme führt auf den Namen „Seymour Cray“. Er ist weitläufig als der „Vater des Supercomputers“ bekannt geworden. Seymour Cray wurde am 28. September 1925 in Chippewa Falls (Wisconsin, USA) geboren. Als Kind

interessierte er sich für Chemie und Radios. Er absolvierte einen Ingenieursstudiengang an der Universität von Minnesota. 1951 trat er der „Engineering Research Associates“ bei, die Computer für die NAVY entwickelte. Seymour Cray spielte eine Schlüsselrolle bei der Erfindung der ersten Generation von Supercomputern, dem UNIVAC 1103. In den 60er Jahren war Seymour Cray der Mitbegründer der „Control Data Corporation“ (CDC). Er war ständig auf der Suche nach neuen Ideen. Die Computer sollten größer und noch schneller werden. So beschloss Seymour, seinen eigenen Weg zu gehen, um seine Visionen zu verwirklichen. 1972 gründete er seine eigene Firma „Cray Research“. Der Geschäftshauptsitz samt Management war in Minneapolis (Minnesota), während die Fabrikation in seiner

Heimatstadt Chippewa Falls (Wisconsin) angesiedelt war. Damit war der Grundstein für die Entwicklung der Cray-Supercomputer gelegt [7], [8]. Seymour Cray war ein Visionär, der sich weniger um die Kostenfrage kümmerte. Das war ein Teil des Geheimnisses um seinen Erfolg. Er beschrieb seine Philosophie einmal wie folgt: Im Folgenden möchte ich auf einige ausgewählte Beispielmaschinen eingehen, um die historische und technologische Entwicklung der Cray-Systeme zu zeigen.

Abb. 3.1/1 Seymour Cray [6]

"In all of the machines that I've designed, cost has been very much a secondary consideration. Figure out how to build it as fast as possible, completely disregarding the

cost of construction." Aus einer Ansprache von Seymour Cray (1974) [6]


3.2 Die Cray-1 Die Cray-1 (siehe Abbildung 3.2/1) war der erste Supercomputer der Firma Cray, dessen Architektur vom Team um Seymour Cray entwickelt wurde. Seymour Cray war dabei für die Technologie der Vektor-Register zuständig. Die erste Cray-1 wurde 1976 am Los Alamos National Laboratory in Betrieb genommen und kostete 8,86 Millionen Dollar. Diese Maschine überholte die damals existierende Technologie. Sie erreichte eine maximale Rechen-geschwindigkeit von 133 MFlops (133 Millionen Fließkommazahl-Operationen pro Sekunde), laut Cray Inc. 100-160 MFlops [10]. Wenn man diese Leistung auf konventionellem Weg erreichen will, müsste man 3333 Sun4-Rechner miteinander verbinden [6]. Die Architektur der Cray-1 spiegelte Seymour Cray’s Fähigkeit wieder, technische Probleme mit revolutionären Ideen zu überbrücken. Um die Rechengeschwindigkeit zu erhöhen, hatte die Cray-1 eine Hufeisenform. Auf diese Weise lagen die Schaltkreise dichter beieinander.

Kein Kabel innerhalb des Systems war länger als 4 Fuß (≈ 1,2 Meter). Das Hauptsächliche an diesem System war der leistungsfähige Mikro-prozessor. Er arbeitete mit einer – für damalige Verhältnisse – enormen Frequenz von 80 MHz. Cray-1 hatte einen 8 MB großen Hauptspeicher (1 Million Speicherzellen á 64 Bit) und 64 Vektor-Register in der Wortbreite von 64 Bit. Das Gesamtsystem verursachte eine immense Wärmeentwicklung. Tatsächlich war es so, dass Seymour Cray’s Entwickler diese Wärme nutzten, um ihre Büros im Winter zu heizen. Deswegen setzte man ein spezielles, neues Kühlsystem ein, dargestellt in Abbildung 3.2/2.

Man verwendete Freon als Kühlmittel. Ausgelöst durch die 1 Million Speicherzellen verbrauchte Cray-1 einschließlich Stromversorgung 115 kW. Wenn man die Kühlung dazurechnet, wird der Wert annähernd verdoppelt. Da die Computer heute immer leistungsfähiger und kompakter werden, ist es schwer vorstellbar, dass Supercomputer wie Cray-1 damals ganze Räume ausnutzten. Man brauchte Platz für die große Haupteinheit, für die Stromversorgung daneben und für ein paar Computer, mit deren Hilfe man das Ganze mit Daten füttern konnte. Die Cray-1A (eine erste Variante) wog 5,5 Tonnen einschließlich des Freon Kühlsystems. Die Cray-1 war ein Vektorrechner basierend auf SIMD-Architektur. Mit Hilfe dieser Architektur erreicht man Parallelität mit wenig Chip-Fläche, da mehrere Rechenwerke vorhanden sind. Der Datensatz wird aufgespalten, und alle Daten werden einem Befehl unterzogen. Ein Vorteil ist die leichte Skalierbarkeit, d. h. das Erweitern der Hardware-

Abb. 3.2/1 Cray-1 [10]

Abb. 3.2/2 Kühlsystem der Cray-1 [10]


Struktur gestaltet sich einfacher. Bei Supercomputern ist der globale Takt ein Problem. Das Steuerwerk fällt wesentlich größer aus als bei konventionellen Computern (mitunter Schrankgröße). Trotzdem benötigt jedes Element den gleichen Takt. Durch lange Kabel entstehen Taktverschiebungen. Bei Cray-1 wurde dieses Problem durch die Hufeisenform und die dadurch wesentlich kürzeren Kabel kompensiert. Einzigartig an Cray-1 war die Verwendung von 200.000 ECL-Schaltkreisen (Emitter-gekoppelte Logik) mit geringer Dichte und sehr hoher Schaltgeschwindigkeit. Es gab keine Mikroprozessoren. Die individuellen Schaltkreise auf den Platinen erfüllten verschiedene Funktionen (siehe Abbildung 3.2/3). ECL ist wie ein Differenzverstärker aufgebaut. Mehrere Transistoren (Anzahl ist schaltungsabhängig) sind über den Emitteranschluss miteinander

verbunden und gemeinsam über eine Konstant-stromquelle geführt. Unabhängig vom Zustand der Logikschaltung ist die Gesamtstrom-aufnahme dadurch konstant, es ergeben sich keine Stromspitzen beim Umschalten, wie es bei anderen Logikfamilien häufig der Fall ist, und die Zustände können sehr schnell gewechselt werden. Die Verstärkung dieser Struktur ist klein, auch im linearen Betrieb führen langsame Eingangsflanken zu keinen parasitären Schwingungen. ECL-Schaltkreise arbeiten mit negativer Spannungsversorgung (Abbildung 3.2/4: Vcc = −5,2V) und benutzen Logiklevel, die mit anderen Logikfamilien inkompatibel sind. Daraus folgt, dass sich die Interaktion von

ECL-Schaltkreisen mit anderen Designs schwierig gestaltet. Die Tatsache, dass die hohen und niedrigen Logiklevels nah beieinander liegen, hat schmale Rauschgrenzen zur Folge, was unter Umständen zu Problemen führen kann. Die ECL gehört zu den schnellsten, erhältlichen Logikfamilien und weist Verzögerungszeiten kleiner als eine Nanosekunde auf. Da die Transistoren ständig Strom ziehen, ist jedoch die Leistungsaufnahme bei kleinen Schalt-zeiten groß, wodurch auch eine Menge Wärme erzeugt wird. ECL wurde dort eingesetzt, wo das Hauptaugenmerk auf Leistung gelegt wurde. Mittlerweile haben sich andere Logikfamilien wie TTL (Transistor-Transistor-Logik) und CMOS (complementary-metal-oxide-semiconductor) weiterentwickelt und ECL in einigen Anwendungen ersetzt [11]. Es dauerte mehrere Monate, um einen Cray-1-Supercomputer aufzubauen. Hunderte von Leiterplatten und tausende von Kabeln mussten korrekt eingesetzt werden. „Das war eine richtige handerzeugte Maschine“, sagte Gwen Bell von The Computer Museum History Center [6]. „Man denkt bei diesen ganzen Kabeln an eine Art Haufen, aber jedes einzelne hat eine präzise Länge.“ Das „National Center for Atmospheric Research“ (NCAR) war im Juli 1977 der erste offizielle,

Abb. 3.2/3 Logik-Recheneinheit der

Cray-1 [10]

Gnd

Vcc

Abb. 3.2/4 Beispiel ECL – OR/NOR-

Gatter mit 4 Eingängen [21]


kommerzielle Kunde der Firma Cray. NCAR bezahlte 8.86 Millionen US-Dollar, davon eine Million für den Speicher. Diese Cray-1 wurde erst 1989 außer Betrieb genommen. Mit Preisen zwischen 5 Mio. und 8 Mio. Dollar wurden ungefähr 80 Cray-1 weltweit verkauft. Das schöne daran war, dass man die Maschine in jeder Farbe bestellen konnte, die man haben wollte – und die hält noch bis heute.

1978 wurde das erste Standardsoftwarepaket für die Cray-1 herausgegeben. Es bestand aus einem Betriebssystem, dem Cray Operating System (COS), welches später durch eine Cray spezifische Unix-Variante, das UniCOS abgelöst wurde, der Cray Assembler Language (CAL) und Cray Fortran, einem Fortran Compiler, der als erster vollautomatisch vektorisieren konnte. Die Kombination von ECL und Hufeisenform gab der Cray-1 die damals sehr hohe Leistung von 133 MFlops in einem relativ „kleinen“ Paket.

3.3 Die Cray-2 1982 wurde die Cray-1 durch die 500 MFflops schnelle Cray X-MP abgelöst, die die erste Multiprozessormaschine der Firma Cray war. 1985 kam dann die sehr fortgeschrittene Cray-2 auf den Markt. Diese war schon in der Lage 1,9 GFlops (1 Milliarde Fließkommazahl-Operationen pro Sekunde) in der Spitze zu erreichen. Die Cray-2 war eine Klasse für sich. Sie war auch ein Vektorrechner, besaß bis zu 4 Prozessoren mit je einem Taktzyklus von 4,1 Nanosekunden (entsprechend 243 MHz) und hatte einen Hauptspeicher angefangen bei 512 MB bis zu 4 GB. Diese Größe wurde von anderen Computersystemen für ein Jahrzehnt nicht

überboten. Die Cray-2 hatte wie die Cray-1 eine Hufeisenform. Sie war bereits etwas kleiner – einen Durch-messer von 1,35 Meter und eine Höhe von 1,15 Meter. Sie benötigte einen separaten Kühlturm. Dazu aber später mehr. Abbildung 3.3/1 zeigt im Vordergrund die Cray-2 und den Kühlturm rechts daneben. Links im Hintergrund steht eine Cray-1 [12]. Seymour Cray baute auf seinem Erfolg mit der Cray-1 auf. Ab 1979 hatte er die ständigen Unter-brechungen seiner Arbeit durch das Management satt und beschloss, die

Managementstelle zu schließen und ein neues Labor zu gründen. Das Management verstand

Abb. 3.3/1 Cray-2 mit Kühlturm [12]

Cray war ein „wunderbarer Packer. Er lernte, wie man Dinge mit sehr hohen Geschwindigkeiten dicht aneinander setzt,

schneller, als es irgendjemand anderes tun konnte.“ Gwen Bell

(The Computer Museum History Center) [6]


seine Bedürfnisse und unterstütze ihn bei der Errichtung eines neuen Labors, genannt „Cray Labs“, in Boulder (Colorado). Dort fungierte er als „unabhängiger Berater“. Seymour Cray stellte ein Team zusammen, und arbeitete an einem komplett neuen Design. Hier ein kleiner Rückblick. Cray unternahm früher drei Maßnahmen, um das Problem der steigenden Geschwindigkeiten anzugehen. Mehr Funktionseinheiten gaben dem System höhere Parallelität. Die Baugruppen mussten dichter gepackt werden, um die Verzögerungszeiten zu minimieren. Nicht zuletzt konnte eine höhere Taktrate für das System nur durch schnellere Komponenten gewährleistet werden. Durch die unglaubliche Dichte der Komponenten wurde zwar die Taktrate erheblich erhöht. Aber gleichzeitig konnte sie zum Absturz der Maschine führen. Ein einzelner defekter Transistor legt ein komplettes Modul lahm. Dann werden mehrere dieser Module dicht auf eine Schaltkreisplatine gepackt. Durch dieses System vergrößert sich die Wahrscheinlichkeit, dass jedes Modul einer Schaltkreisplatine ausfällt. Dieses Problem konnte man umgehen, indem man „Integrierte Schaltkreise“ (ICs) anstelle von individuellen Komponenten benutzte. Diese enthielten eine Auswahl an Komponenten von den Modulen, die automatisch vorgefertigt wurden. War ein IC defekt, konnte man ihn einfach durch einen neuen ersetzen. Seymour Cray vertrat auch die Meinung, dass die Zeit der Silizium-Schaltkreise bald vorbei sein würde. Die Cray-1 erreichte zwar einen Taktzyklus von 12,5 ns, aber mehr als eine Verdopplung der Geschwindigkeit auf Siliziumbasis schien nicht so einfach machbar. Es gab noch die Möglichkeit der galliumarsenid-basierenden (GaAs) Schaltkreise. Diese boten die zehnfache Schaltgeschwindigkeit, verbrauchten weniger Strom und erzeugten auch weniger Hitze. Aber diese Schaltkreise waren Ende der 70er und Anfang der 80er Jahre noch nicht bereit für die Produktion, und so musste man für Cray-2 mit existierenden silizium-basierenden Designs auskommen. Ein anderes Designproblem war die Leistungskluft zwischen Prozessor und Hauptspeicher. Ende der 60er Jahre, als Seymour Cray noch für Control Data Corporation arbeitete, liefen beide noch mit einer Taktgeschwindigkeit. Damals gestaltete sich die Einspeisung des Prozessors mit Daten schwierig. Cray löste das, indem er 10 kleinere Computer an das System anschloss, die mit externen Speichermedien (Disketten und Kassetten) interagierten und Daten in den Hauptspeicher einspeisten, während der Prozessor beschäftigt war. Diese Lösung war nun nicht mehr zeitgemäß und bot keine Vorteile. Der RAM war groß genug, um ganze Datensätze einzulesen, aber der Prozessor lief mit einer höheren Taktrate, sodass oft kostbare Zeit verloren ging, die der Prozessor mit Warten auf ankommende Daten vergeudete. Cray-2 hatte 4 Prozessoren, was das Problem noch vergrößerte. Um dieses Problem zu vermeiden, beinhaltete das neue Design einen 128 Kilobyte großen Block des schnellsten Speichers, der damals möglich war. Dieser Cache wurde mittels einer separaten „High-speed-Pipeline“ mit 4

Abb. 3.3/2 Innerhalb der Cray-2 [12]


so genannten „Hintergrundprozessoren“ verbunden und durch einen „Vordergrundprozessor“ mit Daten gefüttert. Der „Vordergrundprozessor“ war über eine Anzahl von Leitern (Datenrate von mehreren Gigabit pro Sekunde) mit dem Hauptspeicher verbunden, und hatte die Aufgabe, den Computer zu steuern. Er steuerte ebenfalls den Speichervorgang und sorgte für eine effiziente Nutzung der Kanäle zum Hauptprozessor. Ebenso gab er Befehle an die „Hintergrundprozessoren“ weiter. Heutige Computer verwenden ein ähnliches Prinzip, nur bezieht sich der „Vordergrundprozessor“ dann auf die load/store unit (Lade/Speicher-Einheit). Cray-2 Modelle basierten auf einem Konzept mit großen Schaltkreisplatinen, die voll mit IC’s bestückt waren. Sie waren aber so dicht bepackt, dass es fast unmöglich war, sie zusammenzulöten, und die Dichte war noch immer nicht groß genug, um die gesetzten Anforderungen zu erfüllen. Mehrere Teams arbeiteten beinahe 2 Jahre am Design, bevor selbst Seymour Cray aufgab, und beschloss, das Projekt zu beenden und jeden zu feuern, der daran beteiligt war. Les Davis, Cray’s Hauptmitarbeiter, wollte es mit geringer Priorität fortsetzen. 6 Monate später hatte man die Lösung gefunden. Anstelle einer großen Schaltkreisplatine sollte jede „Karte“ aus einem 3D-Stapel mit 8 Schaltkreisplatinen bestehen,

die mit Pins (bekannt als „pogos“ oder „z-pins“) verbunden waren, die von der Oberfläche abstanden. Abbildung 3.3/3 zeigt diese goldgefärbten Stäbe zwischen den Schaltkreisen. Ein konventionelles Kühlsystem war nun bei dieser Dichte nicht mehr verwendbar, da zu wenig Platz für die Luftzirkulation zwischen den ICs vorhanden war. Stattdessen wurde das System in eine Kühlflüssigkeit namens „Fluorinert“ der Firma 3M eingetaucht. Es ist eine elektrisch isolierende, zähe, bronze-akryl-farbene Flour-Carbon-Flüssigkeit, die hauptsächlich zur Kühlung elektronischer Systeme verwendet wird. Wenn sich die Flüssigkeit erhitzt, steigt diese im Computer nach oben auf. Von da aus wird sie in einen separaten Kühlturm abgepumpt, dort abgekühlt und dem Computersystem wieder zugeführt. Auf diese Weise wurde eine höhere Dichte erreicht als mit anderen Möglichkeiten. Die Cray-2 wurde zur Bearbeitung gewaltiger Datensätze eingesetzt. Sie wurde in erster Linie für die American Departments of Defense and Energy entwickelt. Die Benutzung tendierte zur Nuklearwaffenforschung bzw. zur ozeanischen (Sonar) Entwicklung. Sie fand auch Einzug in zivile Einrichtungen, so z.B. in das NASA Ames Research Center, und in Universitäten [12].

Abb. 3.3/3 3D-Stapel mit Schaltkreisen und „pogo“-Pins [12]


3.4 Die Cray-3 Die Arbeit an der Cray-3 begann in den 1980er Jahren im neuen Labor „Cray Labs“ in Colorado. Mit der Cray-2 kamen die neuen 3D-Stapel mit integrierten Schaltkreisen, die eine höhere Dichte erlaubten. Es schien so, als könnte man das ganze noch verbessern. Seymour Cray dachte noch weiter, denn – wie er meinte – würde das dichte Verpacken allein nicht ausreichen. Man dachte ja, die Cray-2 würde die Grenze der Geschwindigkeit von siliziumbasierenden Schaltkreisen erreichen, die bei 4,1 Nanosekunden lag, und es schien unmöglich, mehr als das Doppelte an Geschwindigkeit herauszuholen. Damals war man noch nicht so weit, galliumarsenid-basierende Schaltkreise in Supercomputer einzubauen, doch Mitte der 80er Jahre änderte sich die Situation. Für Seymour Cray waren GaAs-Schaltkreise die einzige Lösung, und er investierte in diese GigaBit-Logik. Das war ein riskanter Schritt, denn wenn sich die Technologie nicht bewähren würde, wäre das gesamte Cray-3-Projekt zum Scheitern verurteilt. Bei der Cray-2 hatte es nicht funktioniert. Außerdem befand sich

Cray Research mitten in der Entwicklung eines anderen Systems mit Namen Cray Y-MP. So beschloss das Management, dass die Cray-3 mit „geringer Priorität“ weiterentwickelt werden sollte. Das passierte Seymour nicht zum ersten Mal. Wie in der Vergangenheit gründete er einfach 1989 seine eigene Firma, um das Projekt fortsetzen zu können. Das Ergebnis war die Cray Computer Corporation, die zu einem großen Teil vom Hauptkunden NCAR (National Center for Atmospheric Research) unterstütz wurde.

Der Kern der Cray-3 bestand wie bei vorherigen Designs aus einer Anzahl Module. Abbildung 3.4/2 zeigt ein solches Modul. Die Galliumarsenid-Chips wurden nicht „verpackt“, sondern mittels Ultraschallbonden direkt auf eine 1 Zoll (≈2,5 cm) mal 1 Zoll große Platte aufgetragen. Diese wurde umgedreht und auf eine zweite Platte mit den Anschlusskabeln gelegt. Von dort aus verliefen die Kabel durch Löcher in die Chipträgerkarte und wurden dort gebondet. Das Ergebnis war ein Sandwich – zwei dünne Platten und die Chips dazwischen. 16 dieser Submodule fanden Platz auf einem Board. Das ganze viermal hintereinander ergab ein Modul. Wie bei Cray-2 entstand ein 3D-Schaltkreis. Auf diese Weise erreichte man eine Logikdichte von 100 Gattern pro Kubikzoll. Die Metallstecker am oberen Rand in Abbildung 3.4/2 dienten der Spannungs-versorgung. Ein Modul war also quadratisch und 4 Zoll (≈10 cm) breit [13]. 32 solcher Module wurden gestapelt und in ein Aluminiumgehäuse montiert, das als „Brick“ (deutsch: „Ziegelstein“) bezeichnet wurde. Die „Bricks“ wurden in eine Kühlflüssigkeit (wie bei Cray-2 „Fluorinert“) eingetaucht. Diese wurde zwischen den Modulen hindurchgepumpt. Mit einer großen Anzahl twisted-pair-Kabel schloss man die Module an einen Prozessor an. In Abbildung 3.4/3 ist ein kompletter Prozessor-„Brick“ dargestellt. Die Module waren vertikal angeordnet. Ein

Abb. 3.4/1 Cray-3 am NCAR Mesa Laboratory in Boulder [14]

Abb. 3.4/2 Cray-3-Modul [13]


4-Prozessor-System verbrauchte ca. 88000 Watt und erzeugte eine Wärme, die sechs 600 m2-Wohnungen beheizen konnte. Das ganze 4-Prozessor-System war ca. 50 cm hoch und etwas mehr als 60 cm breit. Es befand sich am oberen Ende eines grauen Schrankes, der 1,20 Meter hoch, 0,91 Meter breit und genauso lang war. Eine Ebene tiefer befand sich der Speicher, danach das Energieversorgungssystem und ganz unten das Kühlsystem (siehe Abbildung 3.4/1). Alles in allem war die Cray-3 viel kleiner als die Cray-2. Im Gegensatz zur Cray-2 stieg die Anzahl der maximal einsetzbaren Prozessoren von 4 auf 16. Die Taktzykluszeit wurde halbiert. Sie betrug nun 2,11 Nanosekunden; das entspricht 500 MHz. Daraus resultierte für jeden Prozessor eine Leistung von 0,948 GFlops – für das ganze System also eine Leistung von 15,17 GFlops. Der Schlüssel dazu war der Highspeed-Zugriff (Bandbreite von 8 GB pro Sekunde) auf den Hauptspeicher. Die Entwicklung schleppte sich hin. Erst am 24. Mai 1993 wurde die erste und einzige fertige Cray-3 an das NCAR Mesa Laboratory in Boulder ausgeliefert. Sie bekam den Namen „Graywolf“ (zu Deutsch: „Grauer Wolf“). Das geht auf eine Tradition von NCAR zurück, alle eigenen Computer nach Berggipfeln in den Colorado Rocky Mountains zu benennen. Das Design sah zwar bis zu 16 Prozessoren vor, aber diese Variante besaß nur 4. Des Weiteren hatte sie einen 6 GB großen Hauptspeicher. Während der Produktion bekam man mit, dass der Programmiercode einen Bug enthielt. Einer der 4 Prozessoren arbeitete deswegen nicht zuverlässig. Der Austausch einiger Komponenten war zwar vorgesehen, aber anscheinend nicht durchgeführt. NCAR hatte die Maschine noch nicht bezahlt; somit war es mehr eine Leihgabe der Cray Computer Corporation. Diese hatte 1995 um die 300 Millionen Dollar in den Sand gesetzt. NCAR’s Supercomputer wurde offiziell zurückgebracht, doch es wurden lediglich zwei Prozessoren entfernt, und die Maschine wurde für einige Zeit noch inoffiziell weiterbenutzt. Das System wurde für atmosphärische und ozeanographische Berechnungen,

sowie für die Softwareentwicklung der CCC verwendet. Insgesamt wurden sieben Gehäuse für Cray-3-Computer gebaut (die meisten für kleinere 2-CPU-Maschinen), aber nur ein fertiges System wurde jemals ausgeliefert. Drei von den kleineren wurden für das Cray-4-Projekt verwendet. Der Cray-4-Supercomputer war letztlich ein Cray-3 mit 64 schnelleren Prozessoren, die bei je 1 GHz liefen. Der Misserfolg der Cray-3 schien nur zu einem kleinen Teil an der Maschine selbst zu liegen. Aber er sollte komplett mit dem wechselnden

politischen Klima zu tun haben. Die Cray-3 wurde während des Zusammenbruchs des Warschauer Paktes entwickelt. Mit diesem Ereignis endete der „Kalte Krieg“. Das führte zu einem massiven Rückgang der Nachfrage an „großen“ Supercomputern. Der Markt ist zwar seither wieder gestiegen, aber nur für MPP-Systeme, und es scheint, dass die Zeit der Einprozessorarchitekturen vorbei ist. Der ganze Galliumarsenid-Markt wurde damals regelrecht heimgesucht. Man glaubt, wenn der Kalte Krieg nicht beendet worden wäre, würde man heute viel mehr Computer vorfinden, die Galliumarsenid-Schaltkreise verwenden.

Abb. 3.4/3 Cray-3-Module im „Brick“ [13]


1993 bot Cray Research sein erstes MPP-System an – den Cray T3D-Supercomputer. Gleichzeitig nahm man die Führung auf dem MPP-Markt anderen Anbietern wie Thinking Machines und MasPar weg. Der Nachfolger Cray T3E ließ sich als MPP-Computer seit seiner Einführung im Jahre 1995 weltweit am besten verkaufen. Im November 1998 verwendete ein Team aus Wissenschaftlern des Oak Ridge National Laboratory, des National Energy Research Scientific Computing Center (NERSC), des Pittsburgh Supercomputing Center und der University of Bristol (UK) einen Cray T3E-1200E für eine Magnetismusanwendung. Dieses System war das erste, das bei einer realen Anwendung eine Leistung von 1,02 TFlops erreichte. Cray Research und die Firma Silicon Graphics, Inc. (SGI) fusionierten im Februar 1996. Tragischerweise kam Seymour Cray im September desselben Jahres im Alter von 71 Jahren bei einem Autounfall ums Leben. Er hatte noch viele Ideen, der er leider nicht mehr verwirklichen konnte. Vier Jahre später (2000) wurde die Firma in Cray, Inc. umbenannt [15].

3.5 Der Cray XD1 Supercomputer Die XD1 ist einer der neueren Supercomputer der Firma Cray Inc. Dieses System wird seit dem 4. Oktober 2004 zum Kauf angeboten und kostet je nach Variante zwischen 100.000 und 2 Millionen Dollar. Die XD1 basiert auf einem System, das OctigaBay aus Vancouver in Kanada entwickelt hat. Nach der Übernahme durch Cray im Frühjahr 2004 firmieren die Supercomputer-Spezialisten unter Cray Kanada.

Abb. 3.5/1 Cray XD1 Chassis [16]

Die XD1 ist ein Cluster-System, das heißt sie besteht aus mehreren Rechnern, die nach außen wie einer erscheinen. Vorteile eines Clusters sind höhere Ausfallsicherheit und Skalierbarkeit. Nachteilig ist der höhere Programmieraufwand, da der aktuelle Status auf allen Rechnern realisiert werden muss. Auch bei der XD1 werden Standardkomponenten verwendet, wie etwa der aktuelle 64-bit AMD-Opteron-Prozessor. Cray wertet diese aber durch einen eigenen schnellen Interconnect, Management- und Rekonfigurations-Features sowie Beschleunigungs-prozessoren für spezielle Applikationen auf. Für den Anwender steht ein auf HPC zugeschnittenes Linux-Betriebssystem zur Verfügung, das als Plattform für die Anwendungen


Abb. 3.5/2 I/O-Connected

Architektur [17]

Abb. 3.5/3 Memory-Connected

Architektur [17]

dient. Die Hardware wurde von Cray so zugeschnitten, dass auch AMD-Dual-Core-Prozessoren eingesetzt werden können. Dadurch ist, rein theoretisch, eine Verdopplung der Rechenleistung möglich, wenn die Verteilung der Rechenlast auf die Kerne optimal ist. Nun einige Angaben zum Umfang des Gesamtsystems. Bis zu 12 XD1-Systeme (12 Chassis) lassen sich in einem Rack unterbringen (Abbildung 3.5/1). Ein Chassis ist 13,3 cm hoch, 58,4 cm breit und 91,4 cm tief, enthält 12 Opteron-CPUs, maximal 96 GB PC2700 (DDR333) SDRAM oder maximal 48 GB PC3200 (DDR400) SDRAM (1-8 GB pro Socket) und bis zu 2 TB Plattenspeicher. Laut Cray erreicht ein System mit 12 AMD-Dual-Core-Prozessoren mit je 2,2 GHz eine theoretische Spitzenleistung von 106 GFlops. Cray ist in der Lage, mehrere Racks zu koppeln. Dadurch sind Rechnersysteme mit einer Spitzenleistung von über 2 TFlops realisierbar [18]. Im Folgenden möchte ich auf einige Besonderheiten der Rechnerarchitektur eingehen. Die Fähigkeit eines Cluster-Systems, tausende von Prozessoren mit Daten zu füttern, ist ein begrenzender Faktor bezüglich der Leistung. Seit Ende der 80er Jahre verwenden traditionelle HPC-Architekturen die teure SMP shared-memory-Technologie oder I/O-Busse, um mehrere Prozessoren miteinander zu verbinden. Diese Techniken begrenzen aber die Skalierbarkeit und Leistung von Multiprozessorsystemen. Bei der I/O-Connected- Architektur fungiert der PCI-Bus als I/O-Bus (Siehe Abbildung 3.5/2). Man verwendet Network Interface Cards (NICs), die in PCI-Slots gesteckt werden. Übliche Cluster verwenden das Gigabit Ethernet oder eventuell Infinband als Standardverbindung. Diese Systeme sind zwar preislich günstig, aber die Verteilung von Daten auf einzelne Prozessoren ist weniger effizient. Bei Cluster-Systemen, die die Memory-Connected-Architektur benutzen, findet die Interaktion von Prozessoren unterschiedlicher Cluster über den Hauptspeicher statt (Abbildung 3.5/3) [17]. Per Symmetrischem Multiprocessing (SMP) werden die laufenden Prozesse auf alle Prozessoren verteilt, während beim Asymmetrischen Multiprocessing jedem CPU eine Aufgabe fest zugewiesen wird. Z.B. CPU 0:

Betriebssystemaufrufe und CPU 1: Benutzerprozesse. Die Möglichkeit, dass jede CPU jeden Prozess ausführen können muss, führt jedoch bei größeren Systemen dazu, dass der Speicherbus zum Flaschenhals wird. Mit jeder zusätzlichen CPU sinkt der relative Leistungs-Gewinn, da die Speichersubsysteme die Daten nicht mehr schnell genug liefern können, um alle vorhandenen CPUs auszulasten. Diese Nachteile werden durch die von Cray entwickelte Direct Connected Processor (DCP) Architektur kompensiert. Dieses Interconnect führt zu einer schnelleren Kommunikation der Prozessoren untereinander. Abbildung 3.5/4 zeigt schematisch diese Architektur. Das Cray-RapidArray-Interconnect zeichnet sich durch eine hohe Bandbreite und geringe Latenzzeit aus (Siehe Abbildung 3.5/5). Es nutzt zwölf eigene Kommunikationsprozessoren und ein 96-GB/s-non-blocking-Switching-Fabric pro

Chassis. Damit stellt Cray eine theoretische Bandbreite von acht GB/s zwischen jedem der


Abb. 3.5/4 Cray Direct Connected Processor (DCP) Architektur [17]

Knoten aus zwei Opteron-Prozessoren in SMP-Topologie bereit. Davon stehen effektiv 5,8 GB/s pro Knoten zur Verfügung. Die MPI- (Message Passing Interface) Latenz liegt bei 1,6 Mikrosekunden. Zur Verbindung mehrerer Chassis verfügt jedes über 24 externe RapidArray-Interchassis-Links mit einer Bandbreite von insgesamt 48 GB/s. Die Hardware unterstützt MPI (Message Passing Interface), „shmem“ (eine verbreitete, Cray-spezifische Kommunikationsbibliothek) und Bibliotheken für globale Arrays. Für eine höhere Geschwindigkeit kann die zugehörige Kommunikations-Software den Linux-Kernel umgehen. Mit den Interconnects lassen sich beliebige Netzwerktopologien aufbauen wie etwa Fat Tree, Torus, und Hypercube [16].


Abb. 3.5/6 Beschleunigung mit FPGA [19]

Eine weitere Besonderheit des Cray XD1-Supercomputers sind die sechs optionalen Prozessoren. Die Xilink-Virtex II Pro FPGAs beschleunigen spezielle Anwendungen und arbeiten mit den Opteron-Prozessoren eng zusammen. Per Software kann man die Schaltkreise in den FPGAs konfigurieren. Dadurch lässt sich dynamisch ein Koprozessor generieren, der die benötigte Teilaufgabe in Hardware, also ohne das sequentielle Abarbeiten

von Programmcode, löst. Cray bietet eine Programmbibliothek an, aus der der An-wender erprobte Lösungen aufrufen kann. Die FPGAs lassen sich aber auch frei programmieren. Die FPGAs haben direkten Zugriff auf den Opteron-Hauptspeicher und sind in das RapidArray eingebunden (Ab-bildung 3.5/6). Beispiele für das Entlasten der Opterons sind spezielle Such- und Sortierverfahren, die Signalverarbeitung und die Verschlüsselung. Bei der Genome-Sequenzierung in der Bioinformatik etwa führt der Einsatz der FPGAs zu einer Beschleunigung um mehr als den Faktor 100.

Mit Hilfe eines Active-Manager-Subsystems wird die Verfügbarkeit des XD1-Systems sichergestellt und es lassen sich spezifische Konfigurationen regeln. Es stellt den aktuellen Zustand des Systems fest, stellt ihn grafisch dar und führt damit eine zukunftsgerichtete Fehlervorhersage durch. Etwa 200 kritische Größen wie Spannung, Temperatur oder fehlererkennende Schaltkreise werden dazu regelmäßig überwacht. Auf diese Weise werden kritische Hardware-Komponenten von Operationen suspendiert und aus der SMP-Konfiguration ausgeblendet. Der Active Manager kann die XD1 in mehrere kleine, unabhängige Supercomputer partitionieren oder auch die gesamte Rechenleistung einer Anwendung zuweisen [16].

Abb. 3.5/5 Latenzzeit der Prozessorkommunikation bei Parallelrechnern [16]


4 Schlussbemerkungen

4.1 Zusammenfassung Alles begann mit dem Namen Seymour Cray. Er kann zu Recht als „Vater des Supercomputers bezeichnet werden. Für ihn galten beim Entwickeln von Supercomputern 3 wichtige Prinzipien: mehr Funktionseinheiten (Parallelität), engere Anordnung der Baugruppen und schnellere Komponenten. An der Entwicklung der ersten Supercomputer Ende der 60er und Anfang der 70er Jahre war er maßgeblich beteiligt. Unter dem Firmennamen „Cray Research“ wurde 1976 der Vektorrechner Cray-1 entwickelt und gebaut. Dies war ein frühes Beispiel für den Begriff „Supercomputer“. Diese Maschine überholte die damals existierende Technologie. Die innovative Hufeisenform ermöglichte ein engeres Beieinanderliegen der Schaltkreise, die Signallaufzeiten wurden dadurch verringert und die Rechenleistung erhöht. Damals füllten diese Apparate noch ganze Räume aus, und sie waren halbe Heizkraftwerke. Doch der technische Fortschritt war nicht aufzuhalten. 1982 folgte die Cray-2. Sie besaß bis zu 4 Prozessoren zu je 243 MHz und hatte einen Hauptspeicher angefangen bei 512 Megabyte bis zu 4 Gigabyte. Diese Größe wurde von anderen Computersystemen für ein Jahrzehnt nicht überboten. Für Seymour Cray gab es fast kein Problem, das nicht irgendwie auch eine Lösung nach sich zog. Höhere Dichte erreichte man z.B. durch 3D-Stapel mit mehreren Schaltkreisplatinen. Luftkühlung wurde durch eine Kühlflüssigkeit namens „Fluorinert“ ersetzt. Bei der Entwicklung der Cray-3 in den 1980er Jahren stieg man dann auf leistungsfähigere Galliumarsenid-Schaltkreise um. Beim Kern dieses Supercomputers behielt man das Modul-Prinzip bei. Leider wurde von diesem System nur ein einziges fertig gestellt. An diesen 3 Systemen lässt sich die Leistungssteigerung von Supercomputern innerhalb von 3 Jahrzehnten sehr gut veranschaulichen. Währen die Cray-1 eine Spitzenleistung von 133 MFlops mit einem Prozessor erreichte, besaß die Cray-2 bereits 4 Prozessoren, und erreichte schon 1,9 GFlops. Das Cray-3-System konnte auf bis zu 16 CPUs erweitert werden und hatte dann eine Spitzenleitung von 15,17 GFlops. Die Gesamtgröße der Systeme schrumpfte auch zusehends während dieser Zeit. Das Beispiel der Cray XD1 zeigt, dass man heute zu so genannten Cluster-Systemen übergegangen ist. Diese bestehen aus mehreren Rechnern, die nach außen wie einer erscheinen. Vorteile eines Clusters sind höhere Ausfallsicherheit und Skalierbarkeit. Laut Cray erreicht ein XD1-System mit 12 AMD-Dual-Core-Prozessoren mit je 2,2 GHz eine theoretische Spitzenleistung von 106 GFlops. Aus der gesamten Betrachtung ergibt sich, dass Seymour Cray mit seinen Systemen eine Schlüsselrolle bei der Entwicklung von Supercomputern einnimmt.


4.2 Ausblick Wie gezeigt wurde, finden Cray-Systeme heute ein breites Anwendungsspektrum – in der Industrie, in Wissenschaft und Forschung, in Regierungseinrichtungen, beim Militär, usw. Modellbeschreibungen in der Physik, in der Medizin, bei der Wettervorhersage und in anderen Anwendungsgebieten werden immer komplexer. Dadurch steigt die Menge der zu bewältigenden Daten. Für die Berechnung und Simulation werden Supercomputer auch in der Zukunft unverzichtbar sein. Der Entwicklungsweg hat uns gezeigt, dass Hochleistungsrechner immer schneller und auch kompakter geworden sind. Auf die Frage, wann heutige∗ GigaFlops auf dem Desktop verfügbar sein werden, antwortete Professor Viktor K. Prasanna von der University of Southern California: Es ist also nur eine Frage der Zeit – vielleicht einige Jahrzehnte – bis unser Universalrechner zu Hause an die Leistung heutiger Supercomputer anknüpfen kann und diese Performance auch einigermaßen bezahlbar ist.

∗ Stand: Artikel erschien am 22. Januar 1998

„Es wird nicht sehr lange dauern. Wir haben bereits einen ‚single desk’ Prozessor im Bereich von einigen 100 GigaFlops, den RS6000. Wenn man Workstations betrachtet, wird es in ein bis zwei Jahren der Fall sein. Wenn

man Home-PCs betrachtet, werden es eine Anzahl Jahre sein.“ [20]


ABKÜRZUNGSVERZEICHNIS CAE Computer Aided Engineering CAL Cray Assembler Language CDC Control Data Corporation cm Zentimeter CMOS Complementary Metal Oxide Semiconductor COS Cray Operating System CPU Central Processing Unit CUG Cray User Group DCP Direct Connected Processor DDR Double Data Rate ECL Emitter Coupled Logic FPGA Field Programmable Gate Array GaAs Galliumarsenid GB Gigabyte GFlops Giga Floatingpoint Operations per Second GHz Gigaherz HPC High-Performance Computing IC Integrated Circuit kW Kilowatt MB Megabyte MHz Megaherz MFlops Mega Floatingpoint Operations per Second MPI Message Passing Interface MPP Massively Parallel Processing NCAR National Center for Atmospheric Research RAM Random Access Memory SDRAM Synchronous Dynamic Random Access Memory SIMD Single Instruction Multiple Data SMP Symmetrisches Multiprocessing TB Terabyte TFlops Tera Floatingpoint Operations per Second TTL Transistor-Transistor-Logik


ABBILDUNGSVERZEICHNIS Seite: Abbildung 2.1/1 Hollerith Typ III Tabulator (1932) 3 Abbildung 2.1/2 „Leistungen“ spezieller Großrechner 4 Abbildung 2.1/3 Auszug: 24. Top-500-Liste (11/2004) 4 Abbildung 2.2/1 Hurrikan 5 Abbildung 3.1/1 Seymour Cray 6 Abbildung 3.2/1 Cray-1 7 Abbildung 3.2/2 Kühlsystem der Cray-1 7 Abbildung 3.2/3 Logik-Recheneinheit der Cray-1 8 Abbildung 3.2/4 Beispiel ECL – OR/NOR-Gatter mit 4 Eingängen 8 Abbildung 3.3/1 Cray-2 mit Kühlturm 9 Abbildung 3.3/2 Innerhalb der Cray-2 10 Abbildung 3.3/3 3D-Stapel mit Schaltkreisen und „pogo“-Pins 11 Abbildung 3.4/1 Cray-3 am NCAR Mesa Laboratory in Boulder 12 Abbildung 3.4/2 Cray-3-Modul 12 Abbildung 3.4/3 Cray-3-Module im „Brick“ 13 Abbildung 3.5/1 Cray XD1 Chassis 14 Abbildung 3.5/2 I/O-Connected Architektur 15 Abbildung 3.5/3 Memory-Connected Architektur 15 Abbildung 3.5/4 Cray Direct Connected Processor (DCP) Architektur 16 Abbildung 3.5/5 Latenzzeit der Prozessorkommunikation bei Parallelrechnern 17 Abbildung 3.5/6 Beschleunigung mit FPGA 17


LITERATURVERZEICHNIS [1] Der Brockhaus in einem Band 1993

Wolfram Schwachulla und Dr. Karl Henning Wolf, 5. Auflage, Verlag F.A. Brockhaus GmbH, Leipzig 1993

[2] Die Computer-Geschichte der Columbia University, Prof. Herbert R. J. Grosch

Artikel: IBM Tabulators and Accounting Machines http://www.columbia.edu/acis/history/tabulator.html, 9. Juni 2004 [3] Lexikoneintrag zum Stichwort: Supercomputer

http://de.wikipedia.org/wiki/Supercomputer, 18. Juni 2005 [4] 24. Top-500 Liste vom 8. November 2004 http://www.top500.org/lists/plists.php?Y=2004&M=11, 2005 [5] Homepage der Firma Cray, Inc.

Einsatzgebiete von Cray-Systemen http://www.cray.com/solutions/index.html, 2005 [6] Artikel vom 9. Oktober 2002 über Seymour Cray und Cray1 http://www.thocp.net/hardware/cray_1.htm, 2002 [7] Erfinder und berühmte Erfindungen

Artikel von Mary Bellis – Biographien: Seymour Cray http://inventors.about.com/library/inventors/blsupercomputer.htm, 2005

[8] The Supermen: The Story of Seymour Cray and the Technical Wizards Behind the

Supercomputer Charles J. Murray, Verlag Wiley, Januar 1997 ISBN – 0471048852 [9] Homepage: Cray User Group – Aufgaben und Ziele http://www.cug.org, 2005 [10] Lexikoneintrag zum Stichwort: Cray-1 http://de.wikipedia.org/wiki/Cray-1, 3. Juni 2005 [11] Lexikoneintrag zum Stichwort: ECL (Emittergekoppelte Logik)

http://en.wikipedia.org/wiki/ECL, 26. Juni 2005 [12] Lexikoneintrag zum Stichwort: Cray-2 http://en.wikipedia.org/wiki/Cray-2, 12. Juni 2005 [13] Lexikoneintrag zum Stichwort: Cray-3

http://en.wikipedia.org/wiki/Cray-3, 14. Juni 2005


[14] Supercomputer Galerie: Cray-3 – Technische Details http://www.scd.ucar.edu/computers/gallery/cray/cray3/graywolf.html, 2005 [15] Homepage: Cray, Inc. Chronologischer Überblick der Geschichte von Cray-Systemen

http://www.cray.com/about_cray/history.html, 2005 [16] TecChannel – Artikel: Cray XD1: Kampf den Klustercomputern

http://www.tecchannel.de/server/hardware/402401/, 5. Oktober 2004 [17] Homepage: Cray, Inc.

Cray XD1 – Direct Connected Processor (DCP) Architecture http://www.cray.com/products/xd1/architecture.html, 2005

[18] Datenblatt: Cray XD1 Supercomputer – Technical Data Release 1.3 [19] Homepage: Cray, Inc. Cray XD1 – Anwendungsbeschleunigung mit FPGA http://www.cray.com/products/xd1/acceleration.html, 2005 [20] Artikel vom 22. Januar 1998

Interview zum Thema: The Race For Speed Frage: Wann werden heutige GigaFlops auf dem Desktop verfügbar sein? http://www.rediff.com/computer/1998/jan/22hiper.htm, 1998 [21] Erklärung mit Beispiel: Emittergekoppelte Logik (ECL) Von Ken Bigelow http://www.play-hookey.com/digital/electronics/ecl_gates.html, 2004

Die Geschichte und Gegenwart der Cray-Supercomputer · Hauptseminar: Die Geschichte und Gegenwart...

Documents

Transcript of Die Geschichte und Gegenwart der Cray-Supercomputer · Hauptseminar: Die Geschichte und Gegenwart...