Einf.hrung in IBM InfoSphere DataStagepublibfp.boulder.ibm.com/epubs/pdf/c1248110.pdf · Sphere...

46
IBM InfoSphere DataStage Version 9 Release 1 Einführung in IBM InfoSphere DataStage GC12-4811-00

Transcript of Einf.hrung in IBM InfoSphere DataStagepublibfp.boulder.ibm.com/epubs/pdf/c1248110.pdf · Sphere...

Page 1: Einf.hrung in IBM InfoSphere DataStagepublibfp.boulder.ibm.com/epubs/pdf/c1248110.pdf · Sphere DataStage vertrauen, um ihre Unternehmensziele zu erreichen. InfoSphere DataStage stellt

IBM InfoSphere DataStageVersion 9 Release 1

Einführung in IBM InfoSphereDataStage

GC12-4811-00

���

Page 2: Einf.hrung in IBM InfoSphere DataStagepublibfp.boulder.ibm.com/epubs/pdf/c1248110.pdf · Sphere DataStage vertrauen, um ihre Unternehmensziele zu erreichen. InfoSphere DataStage stellt
Page 3: Einf.hrung in IBM InfoSphere DataStagepublibfp.boulder.ibm.com/epubs/pdf/c1248110.pdf · Sphere DataStage vertrauen, um ihre Unternehmensziele zu erreichen. InfoSphere DataStage stellt

IBM InfoSphere DataStageVersion 9 Release 1

Einführung in IBM InfoSphereDataStage

GC12-4811-00

���

Page 4: Einf.hrung in IBM InfoSphere DataStagepublibfp.boulder.ibm.com/epubs/pdf/c1248110.pdf · Sphere DataStage vertrauen, um ihre Unternehmensziele zu erreichen. InfoSphere DataStage stellt

HinweisVor Verwendung dieser Informationen und des darin beschriebenen Produkts sollten die Informationen unter „Bemerkun-gen und Marken” auf Seite 31 gelesen werden.

Diese Veröffentlichung ist eine Übersetzung des HandbuchsIBM InfoSphere DataStage, Version 9 Release 1, Introduction to DataStage,IBM Form GC19-3954-00,herausgegeben von International Business Machines Corporation, USA

© Copyright International Business Machines Corporation 2011, 2012

Informationen, die nur für bestimmte Länder Gültigkeit haben und für Deutschland, Österreich und die Schweiznicht zutreffen, wurden in dieser Veröffentlichung im Originaltext übernommen.

Möglicherweise sind nicht alle in dieser Übersetzung aufgeführten Produkte in Deutschland angekündigt und ver-fügbar; vor Entscheidungen empfiehlt sich der Kontakt mit der zuständigen IBM Geschäftsstelle.

Änderung des Textes bleibt vorbehalten.

Herausgegeben von:TSC GermanyKst. 2877Oktober 2012

Page 5: Einf.hrung in IBM InfoSphere DataStagepublibfp.boulder.ibm.com/epubs/pdf/c1248110.pdf · Sphere DataStage vertrauen, um ihre Unternehmensziele zu erreichen. InfoSphere DataStage stellt

Inhaltsverzeichnis

Kapitel 1. Übersicht über InfoSphere Da-taStage . . . . . . . . . . . . . . . 1

Kapitel 2. Fallbeispiele . . . . . . . . 3InfoSphere DataStage stellt präzise Daten bereit . . 3InfoSphere DataStage vermittelt ein vollständigesBild . . . . . . . . . . . . . . . . . 4InfoSphere DataStage versieht Daten mit Kontext . . 5InfoSphere DataStage gewährt Einblick in Daten . . 6

Kapitel 3. Zentrale Konzepte . . . . . . 9Stages . . . . . . . . . . . . . . . . 9Links . . . . . . . . . . . . . . . . . 9Jobs . . . . . . . . . . . . . . . . . 10Sequenzjobs . . . . . . . . . . . . . . 11Tabellendefinitionen . . . . . . . . . . . 12Container . . . . . . . . . . . . . . . 13Projekte . . . . . . . . . . . . . . . 14

Kapitel 4. Jobentwurf . . . . . . . . 15Datenflussentwurf . . . . . . . . . . . . 16Entwurf mit Parallelverarbeitung . . . . . . . 17

Kapitel 5. Jobausführungsprozesse . . 19Jobs terminieren . . . . . . . . . . . . . 19Jobs überwachen . . . . . . . . . . . . 19Jobs zurücksetzen . . . . . . . . . . . . 20Jobleistung verwalten . . . . . . . . . . . 20Fehlerbehebung für Jobs . . . . . . . . . . 21

Kapitel 6. Architekturübersicht . . . . 23

Kapitel 7. Zusätzliche Ressourcen . . . 25

Eingabehilfen in den Produkten . . . . 27

Auf Produktdokumentation zugreifenund Feedback geben . . . . . . . . 29

Bemerkungen und Marken . . . . . . 31

Kontaktaufnahme mit IBM . . . . . . 35

Index . . . . . . . . . . . . . . . 37

iii

Page 6: Einf.hrung in IBM InfoSphere DataStagepublibfp.boulder.ibm.com/epubs/pdf/c1248110.pdf · Sphere DataStage vertrauen, um ihre Unternehmensziele zu erreichen. InfoSphere DataStage stellt

iv Einführung in IBM InfoSphere DataStage

Page 7: Einf.hrung in IBM InfoSphere DataStagepublibfp.boulder.ibm.com/epubs/pdf/c1248110.pdf · Sphere DataStage vertrauen, um ihre Unternehmensziele zu erreichen. InfoSphere DataStage stellt

Kapitel 1. Übersicht über InfoSphere DataStage

IBM® InfoSphere DataStage ist eine Datenintegrationslösung, die große Datenvolu-men erfasst, umsetzt und verteilt, wobei die Datenstrukturen einfach bis hochkomplex sein können.

InfoSphere DataStage integriert Daten, indem es ein leistungsfähiges parallelesFramework, erweiterte Metadatenverwaltung und Unternehmenskonnektivität ver-wendet. Es unterstützt außerdem Echtzeitdatenintegration und bietet eine skalier-bare Plattform, die Unternehmen in die Lage versetzt, umfangreiche geschäftsbezo-gene Problemstellungen durch leistungsfähige Verarbeitung sehr großerDatenvolumen zu lösen.

Mit InfoSphere DataStage können Sie folgende Ziele erreichen:v Visuelle folgegebundene Datenflüsse mithilfe eines Top-Down-Datenflussmodells

erstellen, um Anwendungen zu erzeugen und auszuführen. Eine einfache, aberleistungsfähige grafische Palette erlaubt Ihnen, den Datenfluss in Ihrer Umge-bung unter Verwendung von Designkomponenten der Drag-and-drop-Benutzer-schnittstelle als Diagramm darzustellen.

v Datenflüsse entwerfen, die Informationen aus mehreren Quellensystemen extra-hieren, die betreffenden Informationen so umsetzen, dass sie einen Mehrwert er-halten und die Daten anschließend für Zieldatenbanken oder -anwendungen be-reitstellen.

v Eine Vielfalt von Datenquellen und Anwendungen durch ein einheitliches Setvon Tools und entsprechendes Know-how verbinden, um die Geschwindigkeit,Flexibilität und Effektivität beim Erzeugen, Implementieren, Aktualisieren undVerwalten Ihrer Datenintegrationsinfrastruktur maximieren zu können.

v Externen Code nutzen, indem Sie sich der Anpassungsfähigkeit und Leistungsfä-higkeit einer vielseitigen Scripting-Sprache, der leistungsfähigen Debuggingfunk-tionalität und einer offenen Anwendungsprogrammierschnittstelle (API) bedie-nen.

Machen Sie sich mit InfoSphere DataStage vertraut, indem Sie sich mit den Fallbei-spielen, Konzepten, Prozessen und mit der Architektur beschäftigen.

1

Page 8: Einf.hrung in IBM InfoSphere DataStagepublibfp.boulder.ibm.com/epubs/pdf/c1248110.pdf · Sphere DataStage vertrauen, um ihre Unternehmensziele zu erreichen. InfoSphere DataStage stellt

2 Einführung in IBM InfoSphere DataStage

Page 9: Einf.hrung in IBM InfoSphere DataStagepublibfp.boulder.ibm.com/epubs/pdf/c1248110.pdf · Sphere DataStage vertrauen, um ihre Unternehmensziele zu erreichen. InfoSphere DataStage stellt

Kapitel 2. Fallbeispiele

Fallbeispiele sind hilfreich, um sich mit InfoSphere DataStage vertraut zu machen,da sie Beispiele bereitstellen, die zeigen, wie das Produkt in realen Situationen ver-wendet wird. Sie veranschaulichen auch, in welcher Weise Unternehmen auf Info-Sphere DataStage vertrauen, um ihre Unternehmensziele zu erreichen.

InfoSphere DataStage stellt präzise Daten bereitUnternehmen können auf das breite Konnektivitätsspektrum vertrauen, das vonInfoSphere DataStage geboten wird, um präzise Daten schnell und auf standardi-sierte Weise bereitzustellen.

In der globalen Wirtschaft wird die Nutzung von Informationen immer mehr zumSchlüssel für den Erfolg im Wettbewerb. Wenn Unternehmen jedoch versuchen, einin Datensilos gespeichertes, explosionsartig zunehmendes Datenvolumen manuellzu verwalten, tun sie sich schwer, den Wert ihrer Informationen als Wettbewerbs-vorteil einzusetzen.

Ein Großunternehmen im Gesundheitswesen ist sich dieser Herausforderung nurallzu bewusst. Das Unternehmen hat die Zielsetzung, die Gesundheitsversorgungzu verbessern, indem die Patienteninformationen direkt beim Patienten zur Verfü-gung gestellt werden. Hierzu muss das Unternehmen Informationen von drittenPartnerunternehmen, die eine breite Palette von Datenquellen und Datenstrukturenverwenden, schnell konsolidieren, standardisieren und verwalten. Bei diesen Part-nerunternehmen handelt es sich unter anderem um Versicherungsgesellschaften,Laboratorien, Clearingstellen für verschreibungspflichtige Medikamente und Ge-sundheitsversorger.

Die für die Datenintegration und Business-Intelligence-Lösungen verantwortlichenMitarbeiter hatten mithilfe von Cobol angepasste Programme entwickelt, um denIntegrationsprozess zu vereinfachen. Das manuelle Codieren von Anwendungen,mit denen die Datenintegration und Qualitätsprüfungen ausgeführt werden, warenjedoch sehr zeitaufwendig.

In Erwartung einer sich annähernd verdoppelnden Zahl von unterstützten Patien-ten benötigte das Unternehmen eine Datenintegrationsplattform, die Informationenunabhängig von ihrem Format oder ihrer Quelle schnell und kosteneffizient berei-nigt, integriert und Profile daraus erstellt. Durch die Verwendung von InfoSphereDataStage in Kombination mit anderen Komponenten von IBM InfoSphere Infor-mation Server wird das Unternehmen in die Lage versetzt, eine einzelne präziseund vertrauenswürdige Informationsquelle zu erstellen, anhand der das Repositorymit Patientenakten, das Klinikärzteportal und das Data-Warehouse gefüllt werdenkönnen.

Das Team konnte das allgemeine Metadatenrepository und die Benutzerschnittstel-le von InfoSphere Information Server nutzen, um die Extraktions-, Umsetzungs-und Ladeprozesse (ETL-Prozesse) von InfoSphere DataStage mit den Informations-analysefunktionen von InfoSphere Information Analyzer und den Datenqualitäts-funktionen von InfoSphere QualityStage zu kombinieren. Dadurch konnte dasTeam innerhalb weniger Wochen die Ergebnisse optimieren und eine Lösung im-plementieren.

3

Page 10: Einf.hrung in IBM InfoSphere DataStagepublibfp.boulder.ibm.com/epubs/pdf/c1248110.pdf · Sphere DataStage vertrauen, um ihre Unternehmensziele zu erreichen. InfoSphere DataStage stellt

Da diese Lösung Prozesse parallel ausführen kann, sind die Mitarbeiter in derLage, eine Datenanalyse für eine vollständige Datenbanktabelle, die aus Millionenvon Zeilen und Hunderten von Spalten besteht, in weniger als zwei Stunden aus-zuführen. Bisher wären für diese Aufgabe mehr als 24 Stunden nötig gewesen. DasUnternehmen verwendet anschließend InfoSphere DataStage, um Daten seinerPartner zu erfassen, zu integrieren und umzusetzen und die Daten für Providerzur Verfügung zu stellen, und bedient sich dabei der Parallelverarbeitungsfunktio-nen von Plattformen mit Multiprozessorhardware, um große Datenvolumen schnellhandhaben zu können.

Die Fähigkeit, Informationen unabhängig von ihrer Quelle oder Struktur effizientintegrieren zu können, trägt zum Erfolg dieses Gesundheitsversorgungsunterneh-mens bei. Folglich wird davon ausgegangen, dass eine signifikante Ertragssteige-rung realisiert werden kann - eine Steigerung, die das Business-Intelligence-Teamohne umfangreiche Investition in Ressourcen abwickeln kann.

InfoSphere DataStage vermittelt ein vollständiges BildUnternehmen können die Entscheidungsfindung vereinfachen, indem sie InfoSphe-re DataStage verwenden, um zusammengehörige Informationen abzustimmen undin Form einer einzelnen ganzheitlichen Ansicht darzustellen.

Ein Bekleidungshersteller, der als Hauptakteur in der Haute-Couture-Bekleidungs-industrie agiert, benötigte schnellere und verlässlichere Informationen, um denEntscheidungsfindungsprozess beschleunigen und seine Prozesse synchron mit dersich schnell ändernden Marktsituation halten zu können. Zur Sicherstellung derrichtigen Produktmischung in den Einzelhandelsflächen müssen Hersteller fürHaute-Couture-Bekleidung nicht nur Änderungen in der Verkaufsstruktur erken-nen, sondern sie müssen die gewonnenen Erkenntnisse auch unverzüglich in eineReihe koordinierter Entscheidungen umsetzen, die sofortige Auswirkungen auf dieLogistikkette haben. Diese Entscheidungen reichen vom Wissen, wann und in wel-chem Umfang die Produktion bestimmter Stile, Konfektionsgrößen und Farben auf-gestockt oder zurückgeschraubt werden sollte, bis hin zur Auswahl der richtigenMischung von Transportwegen, um die Dringlichkeit der Lieferung mit den Kostenin Einklang zu bringen.

Das Zusammenstellen der Informationen, die nötig waren, um richtungsweisendeEntscheidungen treffen zu können, war mühsam und zeitaufwendig. Die primärenQuellen der Daten bildeten fünf separate Systeme, auf die das Unternehmen imGeschäftsbetrieb vertraute. Eine andere wichtige Datenquelle stellten standardisier-te Transaktionsberichte über Produktaktivitäten dar, die das Unternehmen aus sei-nem Großhandelskanal erhielt. Die Daten mussten dann von Mitarbeitern in unter-schiedlichen Abteilungen manuell in Spreadsheets integriert werden, damit dieseInformationen ein kohärentes und vollständiges Bild ergaben. Erst dann konntenFührungskräfte grundlegende Entscheidungen darüber treffen, welche Produkte inwelche Filiale geliefert werden sollten, welche Produkte bei Lieferanten bestelltwerden sollten und wie neue Lieferungen aus Übersee optimal gehandhabt werdenkönnten.

Die inhärente Ineffizienz dieses Ansatzes war nur der Anfang des Problems. DieEntscheidungsfindungsfähigkeit des Unternehmens war eingeschränkt, da es nachder Generierung der Daten durch die Kernsysteme des Unternehmens bis zu zweiTage dauerte, bis den Führungskräften die Informationen in einer Form vorlagen,mit der sie arbeiten konnten.

4 Einführung in IBM InfoSphere DataStage

Page 11: Einf.hrung in IBM InfoSphere DataStagepublibfp.boulder.ibm.com/epubs/pdf/c1248110.pdf · Sphere DataStage vertrauen, um ihre Unternehmensziele zu erreichen. InfoSphere DataStage stellt

Neben Aktualität und Transparenz wurden den Führungskräften durch den Berichtauch noch die Granularität vorenthalten, die erforderlich war, um Entscheidungenhinsichtlich der Optimierung von Geschäftsoperationen treffen zu können.

Viele dieser Entscheidungen wurden vorrangig durch die Notwendigkeit geleitet,verbindliche Zusagen an Einzelhändler erfüllen zu müssen. Zur Minimierung desRisikos von verspäteten Lieferungen entschlossen sich Führungskräfte oft für denLufttransport, der dreimal teurer als der Transport auf dem Wasserweg ist. Darü-ber hinaus wurden Entscheidungen im Hinblick auf die Lagerauffüllung durch feh-lende Granularität eingeschränkt, sodass es schwierig war, eine ausgewogene Mi-schung von Produkten und Konfektionsgrößen auf der Basis von Unterschieden inden Verkaufsstrukturen der einzelnen Filialen oder Regionen zu ermitteln.

Das Unternehmen implementierte eine Lösung, die InfoSphere DataStage und an-dere IBM Produkte verwendet, um Daten aus Kernanwendungen des Unterneh-mens in sein Data-Warehouse zu versetzen. Echtzeitinformationen zu Umsätzen,Lagerbeständen und Lieferungen werden direkt in den Kerntransaktionssystemendes Unternehmens erfasst, und die transaktionsorientierten Informationen aus fünfunterschiedlichen Kernplattformen werden standardisiert und in ein einzelnes Be-richtsframework integriert.

Das Unternehmen verfügt durch die in Echtzeit bereitgestellten Umsätze, Lagerbe-stände und Logistikinformationen jetzt über ein schnelleres und intelligenteres Inst-rument für die Entscheidungsfindung. Der Berichtszyklus wurde von bis zu zweiTagen auf wenige Minuten reduziert, und die Kosten für die Lieferkette und Logis-tik wurden um 30 Prozent gesenkt. Der Umsatz wurde gesteigert, da eine optimier-te Produktmischung in den Einzelhandelsflächen bereitgestellt werden kann, unddie Marke selbst wurde gestärkt, da das Unternehmen wesentlich schneller auf Än-derungen bei Modetrends reagieren kann.

InfoSphere DataStage versieht Daten mit KontextUnternehmen können redundante Problemlösungen durch Verwendung der Drag-and-drop-Benutzerschnittstelle von InfoSphere DataStage eliminieren, um relevanteInformationen in Echtzeit zur rechten Zeit an der richtigen Stelle bereitstellen zukönnen.

Ein bedeutendes Unternehmen für Computer-Services und -Technologien bietet alsSchlüsselangebot einen Wartungsservice an, der die Kunden darin unterstützt, diehöchste Stufe der Netzverfügbarkeit zu erreichen. Durch diesen Service könnenNetzprobleme in maximal 2,5 Stunden nach Eingang der Fehlerbenachrichtigungbehoben werden.

Eine Herausforderung beim Minimieren der mittleren Reparaturzeit bei Netzprob-lemen und beim Maximieren der Mitarbeiterproduktivität bestand in der Schwie-rigkeit, nach der Störung auf Antwortinformationen zuzugreifen. Ohne Einblick inzuvor aufgetretene Probleme zu haben, mussten die Mitarbeiter wiederholt auftre-tende Probleme völlig neu diagnostizieren. Hinzu kam, dass weitere Verzögerun-gen auftraten, da das System für die Materialverwaltung und das System für dasDisponieren der Kundendiensttechniker unabhängig voneinander geführt wurden,nicht organisch verlinkt waren und deshalb die Notationen voneinander abweichenkonnten.

Kapitel 2. Fallbeispiele 5

Page 12: Einf.hrung in IBM InfoSphere DataStagepublibfp.boulder.ibm.com/epubs/pdf/c1248110.pdf · Sphere DataStage vertrauen, um ihre Unternehmensziele zu erreichen. InfoSphere DataStage stellt

Durch Aggregieren der Informationen in einem einzelnen Repository könnte diesesUnternehmen seine Kundendiensttechniker mit wichtigen Informationen ausstat-ten, die die Reperaturzeiten beschleunigen könnten. Die Mitarbeiter mussten einebreite Palette von Informationen aus unterschiedlichen Quellen aggregieren undverwalten, um ein einzelnes Data-Warehouse zu erstellen. Gleichzeitig wollten Ent-scheidungsträger dieselben Daten verwenden, um Materialverteilungsprozesse mitGeschäftspartnern optimal abzustimmen.

Durch Verwendung von InfoSphere Information Server als Integrationsplattformund InfoSphere DataStage für die Implementierung des Data-Warehouse, erreichtedas Unternehmen seine Ziele in nur vier Monaten.

Durch Verwendung von InfoSphere DataStage werden Informationen für die bei je-der Task verwendeten Anwendungen bereitgestellt und von den Anwendungen ge-meinsam genutzt. Diese Informationen schließen Daten zu Netzausfällen, Kunden-informationen und Komponenten ein. Außerdem bietet InfoSphere DataStage dieMöglichkeit, Anweisungen zur Verteilung von Wartungskomponenten, Verteilungs-informationen und andere Informationen mit einem für die Verteilung zuständigenPartner gemeinsam zu nutzen. Dieser Austausch von Daten mit dem für die Vertei-lung zuständigen Partner ist insofern kritisch, als sichergestellt werden muss, dassgeeignetes Wartungsmaterial innerhalb eines angemessenen Zeitraums am Kunden-standort ankommt. Durch die Verwendung von InfoSphere DataStage werden bei-spielsweise die Anweisungen für die Lieferung von Wartungsmaterial jetzt fast inEchtzeit verarbeitet. Als Folge davon hat sich die Zeit für die Lieferung von Aus-tauschkomponenten am Kundenstandort von zwei Stunden auf eine Stunde ver-kürzt, sodass die mittlere Reparaturzeit bei Netzproblemen reduziert werden kann.

Durch Verwendung von InfoSphere DataStage als Teil einer Datenintegrationsplatt-form, die Informationen über mehrere Datenquellen und Zielanwendungen hinwegaggregieren kann, hat dieses Unternehmen die mittlere Reparaturzeit bei Netzprob-lemen reduziert, indem sichergestellt wird, dass Kundendiensttechniker Zugriff aufpräzise und vollständige Kundeninformationen haben.

InfoSphere DataStage gewährt Einblick in DatenUnternehmen können die Skalierbarkeit und Leistung von InfoSphere DataStagenutzen, um Bedeutung aus Informationen abzuleiten, wenn sich diese Informatio-nen ändern.

Stellen Sie sich vor, Sie hätten tagesaktuelle Informationen zu Ihrem Unternehmenzur Hand und wüssten unverzüglich, welche Maßnahmen zur Verkaufsförderungerfolgreich sind, welche Produkte die höchste Rentabilität aufweisen und welcheStandorte für neue Filialen am vielversprechendsten sind. Entscheidungsträger ei-ner im Familienbesitz befindlichen Kette mit Lebensmittelläden waren sich im Kla-ren darüber, dass diese Art von Einblick helfen könnte, das Unternehmen in einUnternehmen mit einem Umsatz von 1 Milliarde US-Dollar wachsen zu lassen. Mitmehr als sechs Terabyte Produkt- und Kundendaten, die auf unterschiedliche Sys-teme und Datenbanken verteilt waren, war es nicht ohne weiteres möglich, die Un-ternehmensaktivitäten jeder Filiale zu bewerten.

6 Einführung in IBM InfoSphere DataStage

Page 13: Einf.hrung in IBM InfoSphere DataStagepublibfp.boulder.ibm.com/epubs/pdf/c1248110.pdf · Sphere DataStage vertrauen, um ihre Unternehmensziele zu erreichen. InfoSphere DataStage stellt

Das Unternehmen verwendete InfoSphere DataStage, um Daten über seine 15 Filia-len und Unternehmenssysteme hinweg zu integrieren, um die gemeinsame Nut-zung von vertrauenswürdigen Informationen zu ermöglichen und größeren Ein-blick in Unternehmensaktivitäten zu gewinnen. Dadurch ist das unternehmensweittätige Personal jetzt in der Lage, täglich den Lagerbestand, die Umsatzzahlen vonFilialen und die Warenkosten zu prüfen, um zu ermitteln, welche Produkte sichgut verkaufen, welche am profitabelsten sind und welche Maßnahmen zur Ver-kaufsförderung am erfolgreichsten sind.

Durch Verwendung von InfoSphere DataStage werden Daten aus jedem POS-Sys-tem in jeder Filiale täglich in das IBM Informix-basierte Umsatzkonsolidierungssys-tem geladen, sodass die Entscheidungsträger des Unternehmens eine wachsendeNachfrage nach bestimmten Produkten schneller erkennen können.

Da die lokale Behörde die Preise für viele Lebensmittel des täglichen Bedarfs an-ordnet, zum Beispiel für Milch, Eier und Brot, zieht das Unternehmen einen weite-ren Nutzen aus dem nahtlosen Fluss von Informationen zwischen dem SAP-Sys-tem und den POS-Systemen: Preise können bei Bedarf schnell für alle Filialenaktualisiert werden und die Einhaltung behördlicher Vorschriften kann leichter si-chergestellt werden.

Durch unternehmensweites Integrieren der Informationen hat die Kette mit Le-bensmittelläden eine Umsatzsteigerung von fast 30 Prozent und eine Steigerungder jährlichen Rentabilität um 7 Millionen US-Dollar realisiert. Der IT-Verantwortli-che führt diese Steigerungen auf das verbesserte Bestandsmanagement zurück undauf die Tatsache, dass das Unternehmen schneller auf sich ändernde Marktbedin-gungen reagieren kann. Das Unternehmen hat beispielsweise Verluste für ca. 35 %seiner Produkte vermieden, da jetzt Preissenkungen terminiert werden können, umverderbliche Produkte zu verkaufen, bevor ihr Haltbarkeitsdatum abläuft.

Durch verbesserte Mitarbeiterproduktivität konnten auch Einsparungen realisiertwerden. Vorher dauerte es bis zu einem Monat, bis die Mitarbeiter der Finanzabtei-lung die Umsatzsteuerdaten manuell aufgestellt hatten. Jetzt können die Datenüber eine einfache Abfrage unverzüglich im SAP-System abgerufen werden - eineVerbesserung um mehr als 98 Prozent.

Außerdem hat das unternehmensweit agierende Personal durch den neuen Ein-blick ein besseres Verständnis für die Umsätze nach Standort entwickelt, um ent-scheiden zu können, wo neue Filialen gebaut werden sollten. Das Unternehmenhat auf Basis des Kundenverhaltens und der Kaufgewohnheiten vier neue Standor-te erfolgreich eröffnet, darunter auch ein neues 'Supercenter'.

Kapitel 2. Fallbeispiele 7

Page 14: Einf.hrung in IBM InfoSphere DataStagepublibfp.boulder.ibm.com/epubs/pdf/c1248110.pdf · Sphere DataStage vertrauen, um ihre Unternehmensziele zu erreichen. InfoSphere DataStage stellt

8 Einführung in IBM InfoSphere DataStage

Page 15: Einf.hrung in IBM InfoSphere DataStagepublibfp.boulder.ibm.com/epubs/pdf/c1248110.pdf · Sphere DataStage vertrauen, um ihre Unternehmensziele zu erreichen. InfoSphere DataStage stellt

Kapitel 3. Zentrale Konzepte

InfoSphere DataStage stellt die Elemente bereit, die zum Erzeugen von Dateninteg-rations- und Umsetzungsflüssen erforderlich sind. Diese Elemente beinhalten Sta-ges, Links, Jobs, Tabellendefinitionen, Container, Sequenzjobs und Projekte.

StagesStages bilden die Bausteine von InfoSphere DataStage-Jobs, wobei jede Stage eineleistungsfähige Gruppe von Operatoren bereitstellt, die bestimmte Funktionen aus-führen. Sie verwenden Stages zum Herstellen einer Verbindung zu Datenquellen,um Dateien zu lesen oder zu schreiben und um Daten zu verarbeiten. Jede Stageist eine grafische Darstellung der Daten selbst oder einer Umsetzung der Daten.

Stages enthalten Anwendungslogik, um ermitteln zu können, wie Daten verarbeitetwerden. Sie geben die Eigenschaften jeder Stage an, um zu definieren, wie die Sta-ge Eingabe- und Ausgabedaten verarbeitet. Eine Stage verfügt in der Regel übermindestens eine Dateneingabe und mindestens eine Datenausgabe. Manche Stages,beispielsweise die Stage 'Lookup', akzeptieren mehrere Eingaben. Andere Stages,beispielsweise die Stage 'Transformer', können mehrere Ausgaben enthalten.

In IBM InfoSphere DataStage und QualityStage Designer ist eine Gruppe von vor-definierten Stages enthalten, die Sie aus der Palette in den Entwicklungsbereichziehen. Diese vordefinierten Stages stellen einen Großteil der Anwendungslogik be-reit, die Sie zum Entwickeln von ETL-Jobs verwenden. Sie können mit einem inC++ geschriebenen Toolkit jedoch auch Ihre eigenen angepassten Stages erstellen.Außerdem schließt das Produkt zahlreiche Stagetypen ein, die Sie als Schablonenzum Erzeugen von angepassten Stages verwenden können.Zugehörige Informationen:

Alphabetische Liste der Stages

Stagetypen

LinksLinks verknüpfen die Stages in einem Job und stellen den Datenfluss dar. Linkssind quasi die „Leitungen”, durch die die Daten von Stage zu Stage geleitet wer-den.

Links geben an, wie Daten von einer Stage zu einer anderen Stage fließen. In IhrenJobs erfolgt die Datenverarbeitung in den Links, durch die die einzelnen Stagesverbunden sind, sodass Ihre Einstellungen (einschließlich der von Ihnen ausge-wählten Metadaten) in dem Link verbleiben, wenn Sie Stages hinzufügen oder lö-schen. InfoSphere DataStage verwendet vier Typen von Links:

EingabelinksEingabelinks verbinden Datenquellen mit Stages und geben dabei einenprimären Datenfluss an. Eingabelinks werden als durchgezogene Linie an-gezeigt.

9

Page 16: Einf.hrung in IBM InfoSphere DataStagepublibfp.boulder.ibm.com/epubs/pdf/c1248110.pdf · Sphere DataStage vertrauen, um ihre Unternehmensziele zu erreichen. InfoSphere DataStage stellt

AusgabelinksAusgabelinks transportieren verarbeitete Daten von einer Stage zu eineranderen Stage, zu einer Datenbank oder zu einer anderen Ausgabedatei.Ausgabelinks werden als durchgezogene Linie angezeigt.

ReferenzlinksReferenzlinks bilden eine Art von Eingabelink und geben an, dass Lookupsin Tabellen ausgeführt werden. Diese Links dienen in der Regel als Eingabefür die Stage 'Transformer' und die Stage 'Lookup', die definieren, wo sichdie Lookup-Tabelle befindet. Referenzlinks werden als gepunktete Linie an-gezeigt.

ZurückweisungslinksZurückweisungslinks bilden eine Art von Ausgabelink und leiten abge-lehnte Daten zu einer Zielstage. Diese Links sind hilfreich beim Ermittelnvon Fehlern oder beim Erfassen von Daten, die nicht die Bedingungen derGeschäftslogik erfüllen, die Sie im Job definiert haben. Zurückweisungs-links werden als gestrichelte Linie angezeigt.

Zugehörige Informationen:

Links verwenden

Stages verlinken

JobsJobs schließen die Entwurfsobjekte und kompilierten programmgesteuerten Ele-mente ein, die eine Verbindung zu Datenquellen herstellen und anschließend dieDaten extrahieren, umsetzen und in ein Zielsystem laden können. Jobs werdenzum besseren Verständnis des Jobziels unter Verwendung eines visuellen Modellserstellt.

Sie kombinieren Stages und Links in Jobs, um den Datenfluss über InfoSphere Da-taStage darzustellen. In einem Job stellen Stages die Datenquellen (Eingabe), die er-forderlichen Umsetzungen und das Ziel des Datenziels (Ausgabe) dar. Links gebenden Datenpfad ausgehend von der Eingabe, über jede Umsetzung bis zur Ausgabean. Jobs können mehrere Eingaben, Umsetzungen und Ausgaben enthalten.

Datenquelle Umsetzung Datenziel

Abbildung 1. Beispiel für einen einfachen Job

10 Einführung in IBM InfoSphere DataStage

Page 17: Einf.hrung in IBM InfoSphere DataStagepublibfp.boulder.ibm.com/epubs/pdf/c1248110.pdf · Sphere DataStage vertrauen, um ihre Unternehmensziele zu erreichen. InfoSphere DataStage stellt

Zugehörige Informationen:

Jobs - Einführung

Neuen Job erstellen

Job über eine Schablone erstellen

SequenzjobsBei Sequenzjobs handelt es sich um einen Jobtyp, mit dem Sie einen Workflow er-stellen können, der Jobs in einer angegebenen Reihenfolge ausführt. Dieser Jobtypwurde bisher als Jobsequenz bezeichnet.

Durch Verwendung von Sequenzjobs können Sie komplexere Jobentwürfe erstellen.Mit Sequenzjobs können Sie beispielsweise folgende Aktivitäten ausführen:v Programmgesteuerte Bedienelemente erzeugen, beispielsweise Verzweigungen

und Schleifenv Unterschiedliche Maßnahmen angeben, die abhängig vom Erfolg oder Misserfolg

eines Jobs im Sequenzjob getroffen werden sollenv Systembefehle ausführen oder E-Mails sendenv Ausnahmebedingungen bei Jobfehlern handhaben, beispielsweise das Übertra-

gen der Steuerung auf eine bestimmte Workflowverzweigung, wenn ein Job inder Sequenz fehlschlägt

Manche der von Ihnen in einem Sequenzjob verwendeten Komponenten unter-scheiden sich von den Komponenten, die Sie in einem typischen Job verwenden.Beispielsweise verwenden Sie Stages, um einen Job zu erstellen. In einem Sequenz-job verwenden Sie Aktivitäten, z. B. parallele Jobs oder Server-Jobs. Und in einemJob verwenden Sie Links, während Sie in einem Sequenzjob mit Triggern arbeiten,um den Steuerungsfluss zu definieren.

Die folgende Abbildung zeigt einen einfachen Sequenzjob, der drei Jobaktivitätenenthält. Jede dieser Aktivitäten stellt einen Job oder einen Workflow dar. Die ersteAktivität 'Demo' ist mit zwei anderen Aktivitäten verlinkt. Bei erfolgreicher Aus-führung des Jobs 'Demo' wird die Aktivität 'Ausführung_nachts' ausgelöst. Schlägtder Job 'Demo' fehl, wird die Jobaktivität 'Fehler' ausgelöst.

Kapitel 3. Zentrale Konzepte 11

Page 18: Einf.hrung in IBM InfoSphere DataStagepublibfp.boulder.ibm.com/epubs/pdf/c1248110.pdf · Sphere DataStage vertrauen, um ihre Unternehmensziele zu erreichen. InfoSphere DataStage stellt

Sie können komplexere Sequenzjobs erstellen, die mehr Bedingungen enthalten. Siekönnen auch eine Jobsteuerroutine erstellen, von der andere Jobs über den aktuel-len Job gesteuert werden. Sie könnten zum Beispiel eine Jobsteuerroutine erstellen,die zwei Jobs terminiert, auf das Ende der Jobausführung wartet, den Status derJobs testet und dann einen auszuführenden dritten Job terminiert.Zugehörige Informationen:

Jobsequenzen erzeugen

Jobsequenz erstellen

Aktivitäten

Trigger

TabellendefinitionenTabellendefinitionen enthalten Informationen zu Ihren Quellen- und Zieldaten, bei-spielsweise den Namen und die Position der Tabellen oder Dateien, die Ihre Datenenthalten. Sie hängen Tabellendefinition an Links an, die ebenfalls Metadaten zuden Daten enthalten, die zwischen Stages übertragen werden.

Tabellendefinitionen enthalten auch Informationen zur Struktur Ihrer Daten. EineTabellendefinition enthält Spaltendefinitionen, die Informationen zu Spaltennamen,zur Spaltenlänge, zum Datentyp und zu anderen Spalteneigenschaften (z. B.Schlüssel und Nullwerte) enthalten.

Tabellendefinitionen werden im Metadatenrepository gespeichert und können inmehreren InfoSphere DataStage-Jobs verwendet werden. Sie können Metadaten inTabellendefinitionen auch zur Vereinfachung der Datengovernance verwenden.

Ausführung_nachts

Fehler

Fehler

Erfolg

Demo

Abbildung 2. Beispiel für einen Sequenzjob

12 Einführung in IBM InfoSphere DataStage

Page 19: Einf.hrung in IBM InfoSphere DataStagepublibfp.boulder.ibm.com/epubs/pdf/c1248110.pdf · Sphere DataStage vertrauen, um ihre Unternehmensziele zu erreichen. InfoSphere DataStage stellt

Wenn beispielsweise professionelle Anwender oder IT-Benutzer wissen müssen,wie Daten durch die Unternehmenssysteme fließen, können Sie eine Impactanalyseausführen, um die relevanten Änderungen an der IT-Infrastruktur und Datenab-stammung ermitteln zu können.Zugehörige Informationen:

Eigenschaften für Tabellendefinitionen festlegen

Tabellendefinitionen innerhalb paralleler Jobs

ContainerContainer sind wiederverwendbare Objekte, die erstellt werden, um Gruppierun-gen von Stages und Links aufzunehmen. Container fördern die Wiederverwen-dung, indem sie Ihnen ermöglichen, dieselbe Logikgruppe mehrmals zu verwen-den und dabei den Pflegeaufwand zu reduzieren. Durch die Verwendung vonContainern können Sie den Jobentwurf vereinfachen, indem Sie komplexe Ab-schnitte eines Jobs durch einen einzelnen Container ersetzen.

Wenn Geschäftsanforderungen von mehreren Stages implementiert werden, könnenContainer dabei helfen, die Aufmerksamkeit auf Untergruppen des Jobentwurfs zulenken und Ihnen dadurch ermöglichen, eine Untergruppe detailliert zu analysie-ren.

Wenn der Job mehrere Stages und Links enthält, könnten Sie Container erstellen,um eine bestimmte Folge von Schritten im Job zu beschreiben. Container werdenüber Eingabe- und Ausgabestages mit anderen Stages oder Containern im Job ver-linkt.

InfoSphere DataStage unterstützt zwei Arten von Containern. Sie können eine Mi-schung aus diesen Containern innerhalb desselben Jobs verwenden.

Lokale ContainerLokale Container vereinfachen Ihren Jobentwurf, können aber nur in einemeinzigen Job verwendet werden. Ein Job kann jedoch mehrere lokale Con-tainer enthalten.

Gemeinsam genutzte ContainerGemeinsam genutzte Container erleichtern die Wiederverwendung, da Siedie Container verwenden können, um einheitliche Jobkomponenten durch-gängig in Ihrem Projekt verfügbar zu machen. Sie könnten beispielsweiseeinen gemeinsam genutzten Container erstellen, der eine Stage und derenMetadaten enthält, und den gemeinsam genutzten Container der Palettehinzufügen. Diesen gemeinsam genutzten Container können Sie dann inanderen Jobs verwenden.

Sie können einen gemeinsam genutzten Container völlig neu erstellen oderSie können eine Gruppe vorhandener Stages und Links in einen gemein-sam genutzten Container stellen. Ähnlich wie bei lokalen Containern kannein Job mehrere gemeinsam genutzte Container enthalten.

Kapitel 3. Zentrale Konzepte 13

Page 20: Einf.hrung in IBM InfoSphere DataStagepublibfp.boulder.ibm.com/epubs/pdf/c1248110.pdf · Sphere DataStage vertrauen, um ihre Unternehmensziele zu erreichen. InfoSphere DataStage stellt

Zugehörige Informationen:

Lokale Container

Gemeinsam genutzte Container

Modulare Entwicklung

ProjekteSie können Ihre Arbeit in Form von Projekten organisieren. Sie geben Datendateienan, definieren Stages und erzeugen Jobs in einem bestimmten Projekt.

Ein Projekt kann mehrere Jobs enthalten, einschließlich der Metadaten, die jedemJob zugeordnet sind. Alle Metadatenobjekte in einem Projekt (z. B. Jobs oder Tabel-lendefinitionen) können logisch gruppiert und in Form von Ordnern organisiertwerden.

Sie können Sicherheit auf Projektebene definieren, damit nur Benutzer, die für IhrProjekt autorisiert sind, auf Ihre Jobs zugreifen können. Die Sicherheitsanforderun-gen Ihres Unternehmens legen den Zugriff auf Projekte fest.Zugehörige Informationen:

Seite 'Projekte'

Projekt einrichten

14 Einführung in IBM InfoSphere DataStage

Page 21: Einf.hrung in IBM InfoSphere DataStagepublibfp.boulder.ibm.com/epubs/pdf/c1248110.pdf · Sphere DataStage vertrauen, um ihre Unternehmensziele zu erreichen. InfoSphere DataStage stellt

Kapitel 4. Jobentwurf

Sie verwenden einen Job, um Daten zu extrahieren, umzusetzen, zu laden oderihre Qualität zu prüfen. Das Erzeugen von Jobs in InfoSphere DataStage beginntmit einem wohldurchdachten Entwurf, der auf fundierter Kenntnis Ihrer Dateninte-grationserfordernisse basiert.

Beim Jobentwurf handelt es sich um die Metadaten, die die in einem Job verwen-deten Quellen und Ziele definieren, und um die Logik, die mit den zugehörigenDaten operiert. Ein Jobentwurf besteht aus Stages und den Links zwischen diesenStages. Das heißt, jede Datenquelle und jeder Umsetzungsschritt bildet eine Stageim Job, und die Stages werden unter Verwendung von Links verbunden, um denDatenfluss zu zeigen.

Der Basisworkflow beim Entwerfen und Entwickeln eines Jobs beinhaltet die fol-genden Schritte:1. Eingabe- und Ausgabestages hinzufügen.2. Umsetzungsstages hinzufügen.3. Links zum Verbinden der Stages verwenden.4. Tabellendefinitionen bei Bedarf in Quellenstages und andere Stages laden.5. Eigenschaften für Datenquellendateien hinzufügen.6. Eigenschaften für Datenzieldateien hinzufügen.7. Umsetzungsstages abhängig von ihrem Typ bei Bedarf bearbeiten.8. Job speichern und kompilieren.9. Job ausführen und überwachen.

10. Protokoll prüfen.

Bevor Sie mit dem Entwerfen eines Jobs beginnen, sollten Sie die folgenden Punktesorgfältig abwägen:

Sich über den Zweck des Jobs klar werden

Für die Verwendung von InfoSphere DataStage ist eine strukturierte Vorge-hensweise beim Zusammenstellen der Anforderungen unabdingbar.

Bei einer Anforderung kann es sich um das einfache Laden einer Datei ineine Datenbank handeln. Eine andere Anforderung könnte das Entfernendoppelter Datensätze aus der Datei sein, bevor diese in die Datenbank ge-laden wird. Eine komplexere Anforderung könnte es sein, Daten aus dreiunterschiedlichen Datenbanken zu verknüpfen, eine Reihe von Datenberei-nigungstasks auszuführen, die Daten als Sternschema neu zu formatierenund das Sternschema anschließend mit drei unterschiedlichen Aggregatenin eine Gruppe von Tabellen zu laden.

Dieses Beispiel veranschaulicht, dass die Anforderungen sehr unterschied-lich sind und Sie Jobs entwerfen müssen, die ebenfalls sehr unterschiedlichsind. Für die komplexere Anforderung könnten Sie beispielsweise eineGruppe von Sequenzjobs erzeugen, wohingegen Sie für die einfachere An-forderung lediglich einen einzelnen Job erzeugen könnten. Sie müssen zu-nächst jede Anforderung bewerten, um zu ermitteln, wie die Arbeit ambesten aufgeteilt werden kann, und danach logische Untergruppen entwer-fen, die die Anforderung am besten erfüllen.

15

Page 22: Einf.hrung in IBM InfoSphere DataStagepublibfp.boulder.ibm.com/epubs/pdf/c1248110.pdf · Sphere DataStage vertrauen, um ihre Unternehmensziele zu erreichen. InfoSphere DataStage stellt

Datenstrukturen verstehenBevor Sie mit dem Entwerfen eines Jobs beginnen, sollten Sie Folgendesbeachten:v Die Anzahl und den Typ von Datenquellen, auf die Sie im Job zugreifen

müssen.v Die Position der Daten. Sie könnten sich dafür entscheiden, auf unter-

schiedliche Weise auf die Daten zuzugreifen, abhängig vom Typ des Sys-tems, in dem die Daten gespeichert sind.

v Inhalt der Daten. Überlegen Sie, welche Spalten in den Daten enthaltensind, und ermitteln Sie anschließend, ob Sie die Tabellendefinitionen im-portieren können oder manuell eingeben müssen. Bedenken Sie dabei,dass Tabellendefinitionen über die unterschiedlichen Datenquellen hin-weg möglicherweise nicht konsistent sind.

Umsetzungen verstehenEntscheiden Sie, welche Spalten aus den Quellendaten importiert werden.Legen Sie dann das Format für die Ausgabedaten fest, die nach Abschlussder Umsetzungen in das Zielsystem geladen werden. Berücksichtigen Siedabei auch, ob die Daten aggregiert oder konvertiert werden müssen, be-vor zur nächsten Stage übergegangen wird.

Zugehörige Informationen:

Tipps zum Entwerfen von Jobs

Jobs von InfoSphere DataStage und QualityStage entwerfen

DatenflussentwurfBeim Entwerfen des Datenflusses müssen Sie berücksichtigen, welche Datenquellenvon Ihrem Job benötigt werden, wie die Daten verarbeitet werden sollen und wodie Ausgabedaten gespeichert werden sollen. Die nachfolgend beschriebene Vorge-hensweise unterstützt Sie dabei, Komponenten zu erzeugen und über Jobs hinwegwiederzuverwenden, bei gleichzeitiger Minimierung des Codes, der erforderlichist, um selbst den schwierigsten und komplexesten Integrationsprozess zu definie-ren.

Bei der Erstellung Ihres Jobs verwenden Sie zunächst Stages und Links, um denDatenfluss zu skizzieren. Dabei stellen Sie vielleicht fest, dass Jobs vorhanden sind,die Ähnlichkeiten zu dem Job aufweisen, den Sie erzeugen müssen. Wenn dies derFall ist, müssen Sie herausfinden, ob Elemente dieser vorhandenen Jobs in IhremJob wiederverwendet werden können. Planen Sie anschließend, wie Sie diese Ele-mente einbauen können.

Oder Sie benötigen unter Umständen mehrere Jobs, um Ihr Ziel zu erreichen. Mög-licherweise stellen Sie fest, dass Sie das gewünschte Ergebnis einfacher erreichen,wenn Sie vorhandene Jobs mit neu von Ihnen erstellten Jobs kombinieren. Sie müs-sen eine Bewertung vornehmen und festlegen, welche vorhandenen Jobs zur Errei-chung des Ziels beitragen könnten und welche Jobs Sie erstellen müssen. Anschlie-ßend müssen Sie überlegen, in welcher Reihenfolge die Jobs am sinnvollstenausgeführt werden.Zugehörige Informationen:

Entwerfen, um gute Leistung zu erzielen

16 Einführung in IBM InfoSphere DataStage

Page 23: Einf.hrung in IBM InfoSphere DataStagepublibfp.boulder.ibm.com/epubs/pdf/c1248110.pdf · Sphere DataStage vertrauen, um ihre Unternehmensziele zu erreichen. InfoSphere DataStage stellt

Entwurf mit ParallelverarbeitungInfoSphere DataStage stellt die Leistungsfähigkeit der Parallelverarbeitung für denDatenextraktions- und Umsetzungsprozess bereit. InfoSphere DataStage-Jobs über-nehmen automatisch die Funktionalität des Datenpipelining und der Datenpartitio-nierung und versetzt Sie so in die Lage, einen Integrationsprozess zu entwerfen,ohne Rücksicht auf Datenvolumen oder Zeitvorgaben nehmen zu müssen undohne Code manuell erstellen zu müssen.

InfoSphere DataStage-Jobs verwenden zwei Typen der Parallelverarbeitung:

DatenpipeliningUnter Datenpipelining versteht man den Prozess, bei dem Datensätze ausdem Datenquellensystem extrahiert und über die Sequenz der Verarbei-tungsfunktionen, die in dem durch den Job definierten Datenfluss definiertsind, versetzt werden. Da Datensätze durch die Pipeline fließen, können sieverarbeitet werden, ohne dass sie auf Platte geschrieben werden.

DatenpartitionierungBei der Datenpartitionierung handelt es sich um einen Ansatz in RichtungParallelität, bei dem Datensätze in Partitionen oder Untergruppen von Da-tensätzen aufgeteilt werden. Bei der Datenpartitionierung steigt die An-wendungsleistung in der Regel linear.

Wenn Sie einen Job entwerfen, wählen Sie den gewünschten Typ des Da-tenpartitionierungsalgorithmus aus (Hash, Bereich, Modulus usw.). ZurLaufzeit verwendet InfoSphere DataStage dann die Auswahl für den Gradder Parallelität, der während der Ausführung über die Konfigurationsdateidynamisch angegeben wird.

Zugehörige Informationen:

Grundlagen der Parallelverarbeitung

Umgebungen für Parallelverarbeitung

Kapitel 4. Jobentwurf 17

Page 24: Einf.hrung in IBM InfoSphere DataStagepublibfp.boulder.ibm.com/epubs/pdf/c1248110.pdf · Sphere DataStage vertrauen, um ihre Unternehmensziele zu erreichen. InfoSphere DataStage stellt

18 Einführung in IBM InfoSphere DataStage

Page 25: Einf.hrung in IBM InfoSphere DataStagepublibfp.boulder.ibm.com/epubs/pdf/c1248110.pdf · Sphere DataStage vertrauen, um ihre Unternehmensziele zu erreichen. InfoSphere DataStage stellt

Kapitel 5. Jobausführungsprozesse

In InfoSphere DataStage führen Sie Jobs in der Entwicklungsumgebung aus, umProbleme beheben zu können, bevor Sie die Jobs terminieren oder in einer Produk-tionsumgebung ausführen.

Während der Jobausführung werden die eigentlichen Schritte des Extrahierens,Umsetzens und Ladens der Daten ausgeführt. Ein Job wird in der Regel ohne Be-grenzungen im Hinblick auf die Anzahl der verarbeiteten Zeilen ausgeführt. In derRegel gibt es auch keine Begrenzungen für die Anzahl Warnungen, die angezeigtwerden. Sie können jedoch Begrenzungen festlegen.Zugehörige Informationen:

InfoSphere DataStage-Jobs ausführen

Jobs terminierenSie können Jobs terminieren, um sie einmalig oder periodisch wiederkehrend aus-zuführen.

Sie können terminieren, wie oft ein Job ausgeführt wird. Sie können einen Job bei-spielsweise so terminieren, dass er heute, morgen, jeden Tag oder an einem be-stimmten Tag ausgeführt wird.

Bei der Terminierung in InfoSphere DataStage wird die Funktionalität des Betriebs-systems verwendet, sodass die Terminierung denselben Regeln unterliegt, die dasBetriebssystem durchsetzt. Auf UNIX-Systemen beispielsweise darf nur der Rootdie Terminierungen eines anderen Benutzers sehen; deshalb hat es sich bewährt,eine einzelne ID zum Terminieren aller Jobs zu verwenden.Zugehörige Informationen:

Jobterminierung

Job terminieren

Jobs überwachenSie können Jobs in InfoSphere DataStage überwachen.

Sie können entweder InfoSphere DataStage und QualityStage Director oder dieOperations Console verwenden, um auf Informationen zu Ihren Jobs, zur Jobaktivi-tät und zu den Systemressourcen zuzugreifen. Die Operations Console stellt in gro-ßem Umfang Analysefunktionalität im Hinblick auf die Leistung der Jobausfüh-rung, der Systemressourcen und des Enginestatus bereit.

Sie können noch andere Überwachungstasks in InfoSphere DataStage ausführen.Beispiel:v Die Jobüberwachung stellt eine hilfreiche Momentaufnahme der Leistung eines

Jobs zu einem bestimmten Zeitpunkt der Ausführung bereit.v Die Leistungsanalyse bietet aussagekräftigere Informationen zum Laufzeitverhal-

ten des Jobs. Diese Analyse erfolgt durch Anzeigen von Diagrammen, die dieJobleistung und die Ressourcenauslastung des Computers interpretieren.

19

Page 26: Einf.hrung in IBM InfoSphere DataStagepublibfp.boulder.ibm.com/epubs/pdf/c1248110.pdf · Sphere DataStage vertrauen, um ihre Unternehmensziele zu erreichen. InfoSphere DataStage stellt

v Sie können die Ressourcenauslastung von parallelen Jobläufen schätzen und vor-hersagen, indem Sie Modelle und Projektionen erstellen.

v Sie können ein Auditprotokoll mit sicherheitsrelevanten Ereignisse erstellen, ein-schließlich aller Änderungen an sicherheitsrelevanten Einstellungen und der An-und Abmeldeoperationen von Benutzern.

Zugehörige Informationen:

Einführung in Überwachungsjobs

Jobs und Jobausführungen mit Operations Console überwachen

Ressourcenschätzung

Konfiguration für Auditprotokollierung

Jobs zurücksetzenSie können einen Job zurücksetzen, wenn bei seiner Ausführung Probleme aufge-treten sind.

Eine Zurücksetzung erfolgt, wenn ein Job oder Sequenzjob fehlgeschlagen ist oderunerwartet beendet wurde. In diesen Fällen verbleibt der Job im Status „Abgebro-chen”, damit der Entwickler oder Bediener darüber informiert wird, dass ein Prob-lem aufgetreten ist und behoben werden muss. Der Job muss zurückgesetzt wer-den, bevor er erneut ausgeführt werden kann. Die Rücksetzaktion setzt dieJobüberwachungsinformationen in den Status zurück, in dem sie sich vor der Job-ausführung befunden haben. Nachdem der Job zurückgesetzt wurde, wird der Job-status „Wurde zurückgesetzt” angezeigt.

Für die Anforderung, dass ein Job zurückgesetzt werden muss, bevor er wiederholtwerden kann, gibt es eine einzelne Ausnahme. Wenn ein Sequenzjob fehlschlägt,der das Feature 'Prüfpunkt-/Wiederanlauffunktion' verwendet, wird der Status„Abgebrochen/Erneut startbar” angezeigt. Der betreffende Sequenzjob kann erneutausgeführt werden, ohne dass er zurückgesetzt wird. Die Verarbeitung beginnt beidem Schritt, der auf den letzten abgeschlossenen Prüfpunkt folgt. Sie können je-doch auswählen, dass der Sequenzjob zurückgesetzt werden soll. In diesem Fallwerden die Prüfpunkte gelöscht und die nächstmalige Ausführung des Sequenz-jobs beginnt mit dem ersten Schritt des Workflows.Zugehörige Informationen:

Job zurücksetzen

Jobleistung verwaltenSie können den Status aller Jobs in einem Projekt anzeigen.

Während ein Job ausgeführt wird, können Sie Details zur Jobleistung anzeigen.Nach Abschluss eines Jobs können Sie Details dazu anzeigen, wie leistungsfähigder Job war. Sie können Informationen für jede aktive Stage im Job und für jedender Eingabe- und Ausgabelinks eines Jobs anzeigen.

Sie können die folgenden Informationen anzeigen:v Ob eine Stage kompiliert wird, ausgeführt wird, beendet ist, mit Warnungen be-

endet wurde oder fehlgeschlagen istv Die Anzahl Zeilen, die von der Stage verarbeitet wurden oder einen Link durch-

laufen haben

20 Einführung in IBM InfoSphere DataStage

Page 27: Einf.hrung in IBM InfoSphere DataStagepublibfp.boulder.ibm.com/epubs/pdf/c1248110.pdf · Sphere DataStage vertrauen, um ihre Unternehmensziele zu erreichen. InfoSphere DataStage stellt

v Die Zeit, zu der die Stage mit der Datenverarbeitung begonnen hatv Die Zeitspanne, in der die Stage Daten aktiv verarbeitet hatv Die Anzahl Zeilen, die pro Sekunde verarbeitet werdenv Der Prozentsatz an CPU, der von einem Prozess verbraucht wird

Diese Details können Aufschluss darüber geben, ob ein Job Daten effizient verar-beitet. Beispielsweise können Sie durch Anzeigen der Anzahl der verarbeiteten Zei-len und des Status der Stage ermitteln, ob der Job wie erwartet ausgeführt wird.Zugehörige Informationen:

Jobstatusdetails

Ansicht 'Jobstatus'

Fehlerbehebung für JobsBei Ausführung eines Jobs werden Protokolldateien generiert. Sie können IBM In-foSphere DataStage und QualityStage Designer verwenden, um auf Protokolldatei-en zuzugreifen. Anhand der Protokolldateien können Sie Probleme beheben, die inJobs auftreten.

Je nach Typ der in einem Job verwendeten Stages werden für unterschiedliche Jobsunterschiedliche Protokolle erstellt. Ein Standardjob könnte Nachrichten zu Umge-bungsvariablen, NLS-Informationen, Informationen zum Jobstart und -ende, Daten-bankinformationen usw. enthalten.

Die Protokolldatei könnte Nachrichten aus vielen Läufen, Prüfungen und Rücksetz-vorgängen enthalten und deshalb sehr umfangreich sein. Jobs, die mehrere Instan-zen aufweisen, vergrößern die Protokolldatei noch mehr, da alle Instanzen dieselbeProtokolldatei gemeinsam nutzen. Sie können das Protokoll gelegentlich bereini-gen, um den erforderlichen Speicherplatz zu reduzieren. Sie können auswählen,dass das Protokoll auf Basis einer bestimmten Anzahl von Läufen oder auf Basiseiner vordefinierten Anzahl von Tagen automatisch bereinigt wird.Zugehörige Informationen:

Jobprotokoll

Ansicht 'Jobprotokoll'

Kapitel 5. Jobausführungsprozesse 21

Page 28: Einf.hrung in IBM InfoSphere DataStagepublibfp.boulder.ibm.com/epubs/pdf/c1248110.pdf · Sphere DataStage vertrauen, um ihre Unternehmensziele zu erreichen. InfoSphere DataStage stellt

22 Einführung in IBM InfoSphere DataStage

Page 29: Einf.hrung in IBM InfoSphere DataStagepublibfp.boulder.ibm.com/epubs/pdf/c1248110.pdf · Sphere DataStage vertrauen, um ihre Unternehmensziele zu erreichen. InfoSphere DataStage stellt

Kapitel 6. Architekturübersicht

InfoSphere DataStage ist Teil einer umfangreicheren Produktsuite mit Namen In-foSphere Information Server, bei der es sich um eine umfassende vereinheitlichtePlattform für Unternehmensinformationsarchitekturen handelt.

InfoSphere Information Server ist skalierfähig, um allen Anforderungen an das In-formationsvolumen Rechnung tragen zu können, damit Unternehmen Geschäftser-gebnisse schneller und mit höherwertigen Ergebnissen bereitstellen können. InfoS-phere Information Server stellt eine einzelne vereinheitlichte Plattform bereit, die esUnternehmen ermöglicht, vertrauenswürdige und kontextreiche Informationen zuverstehen, zu bereinigen, umzusetzen und bereitzustellen.

Sie installieren InfoSphere Information Server-Produktmodule, einschließlich InfoS-phere DataStage, in logischen Schichten. Eine Schicht besteht aus einer logischenGruppe von Komponenten in InfoSphere Information Server und den Computern,auf denen diese Komponenten installiert sind. Die Schichten stellen Services, Job-ausführung und Metadaten sowie andere Datenspeicher für Ihre Produktmodulebereit.

Jede Schicht enthält eine Untergruppe der Komponenten, die zusammen die InfoS-phere Information Server-Produktmodule bilden. InfoSphere Information Server-Produktmodule nutzen außerdem viele allgemeine Komponenten gemeinsam, bei-spielsweise Verwaltungs- und Sicherheitsservices, Entwurfs-, Entwicklungs- undImplementierungstools, Metadatenassets und Überwachungsfunktionen.

Sonstige

Metadaten-repository-

Schicht

Serviceschicht

Clientschicht

Engineschicht

Daten

Cloud

Dateien

Abbildung 3. In Schichten unterteilte Architektur von InfoSphere Information Server

23

Page 30: Einf.hrung in IBM InfoSphere DataStagepublibfp.boulder.ibm.com/epubs/pdf/c1248110.pdf · Sphere DataStage vertrauen, um ihre Unternehmensziele zu erreichen. InfoSphere DataStage stellt

In der folgenden Tabelle werden die einzelnen Schichten beschrieben.

Tabelle 1. Schichten

Schicht Beschreibung

Clientschicht Die Clientschicht enthält die für die Entwicklung und Verwaltungverwendeten Clientprogramme und Konsolen sowie die Computer,auf denen sie installiert sind.

Engineschicht Die Engineschicht beinhaltet die logische Gruppe von Komponen-ten (die InfoSphere Information Server-Enginekomponenten,-Serviceagenten usw.) und die Computer, auf denen diese Kompo-nenten installiert sind. Die Engine führt Jobs und andere Tasks fürProduktmodule aus.

Serviceschicht Die Serviceschicht enthält den Anwendungsserver, allgemeine Ser-vices und Produktservices für die Suite und die Produktmodulesowie die Computer, auf denen diese Komponenten installiertsind. Die Serviceschicht stellt allgemeine Services (z. B. Metadatenund Protokollierung) sowie für bestimmte Produktmodule zuge-schnittene Services bereit. In der Serviceschicht fungiert Web-Sphere Application Server als Host für die Services. DieServiceschicht fungiert auch als Host für webbasierte InfoSphereInformation Server-Anwendungen.

Metadatenrepository-Schicht

Die Metadatenrepository-Sicht enthält das Metadatenrepository,die InfoSphere Information Analyzer-Analysedatenbank (falls ins-talliert) und die Computer, auf denen diese Komponenten instal-liert sind. Das Metadatenrepository enthält die gemeinsamgenutzten Metadaten, Daten und Konfigurationsinformationen fürInfoSphere Information Server-Produktmodule. In derAnalysedatenbank werden erweiterte Analysedaten für InfoSphereInformation Analyzer gespeichert.

Zugehörige Informationen:

Einführung in IBM Information Server

Schichten und Komponenten

Beziehungen zwischen Schichten

Gemeinsam genutzte Services

24 Einführung in IBM InfoSphere DataStage

Page 31: Einf.hrung in IBM InfoSphere DataStagepublibfp.boulder.ibm.com/epubs/pdf/c1248110.pdf · Sphere DataStage vertrauen, um ihre Unternehmensziele zu erreichen. InfoSphere DataStage stellt

Kapitel 7. Zusätzliche Ressourcen

Lesen Sie die folgenden Veröffentlichungen zu InfoSphere DataStage.v InfoSphere DataStage Data Flow and Job Design: Beschreibt die Implementierung

des InfoSphere DataStage-Datenflusses und -Jobentwurfs.v InfoSphere DataStage-Glossar: Terme und Definitionen für InfoSphere DataStage.v InfoSphere DataStage - Literaturübersicht: Links zu weiteren Informationsquel-

len, die für InfoSphere DataStage zur Verfügung stehen.

25

Page 32: Einf.hrung in IBM InfoSphere DataStagepublibfp.boulder.ibm.com/epubs/pdf/c1248110.pdf · Sphere DataStage vertrauen, um ihre Unternehmensziele zu erreichen. InfoSphere DataStage stellt

26 Einführung in IBM InfoSphere DataStage

Page 33: Einf.hrung in IBM InfoSphere DataStagepublibfp.boulder.ibm.com/epubs/pdf/c1248110.pdf · Sphere DataStage vertrauen, um ihre Unternehmensziele zu erreichen. InfoSphere DataStage stellt

Eingabehilfen in den Produkten

Sie erhalten Informationen zum Status der Eingabehilfen in IBM Produkten.

Die Produktmodule und Benutzerschnittstellen von IBM InfoSphere InformationServer sind nicht uneingeschränkt für behindertengerechte Bedienung geeignet.Das Installationsprogramm installiert die folgenden Produktmodule und -kompo-nenten:v IBM InfoSphere Business Glossaryv IBM InfoSphere Business Glossary Anywherev IBM InfoSphere DataStagev IBM InfoSphere FastTrackv IBM InfoSphere Information Analyzerv IBM InfoSphere Information Services Directorv IBM InfoSphere Metadata Workbenchv IBM InfoSphere QualityStage

Informationen zum Status der Eingabehilfen in IBM Produkten finden Sie unterhttp://www.ibm.com/able/product_accessibility/index.html.

Dokumentation im behindertengerechten Format

Dokumentation im behindertengerechten Format für InfoSphere Information Ser-ver-Produkte steht in einem Information Center zur Verfügung. In diesem Informa-tion Center wird zur Darstellung der Dokumentation das Format XHTML 1.0 ver-wendet, das mit den meisten Web-Browsern geöffnet werden kann. XHTMLermöglicht es Ihnen, die gewünschten Anzeigeeinstellungen in Ihrem Browser fest-zulegen. Darüber hinaus ist der Einsatz von Sprachausgabeprogrammen und ande-ren Unterstützungseinrichtungen für den Zugriff auf die Dokumentation möglich.

Die im Information Center zur Verfügung stehende Dokumentation wird auch inForm von PDF-Dateien bereitgestellt, die nicht uneingeschränkt für behindertenge-rechte Bedienung geeignet sind.

IBM und Eingabehilfen

Weitere Informationen zum Engagement von IBM hinsichtlich der Eingabehilfenfinden Sie im IBM Human Ability and Accessibility Center.

27

Page 34: Einf.hrung in IBM InfoSphere DataStagepublibfp.boulder.ibm.com/epubs/pdf/c1248110.pdf · Sphere DataStage vertrauen, um ihre Unternehmensziele zu erreichen. InfoSphere DataStage stellt

28 Einführung in IBM InfoSphere DataStage

Page 35: Einf.hrung in IBM InfoSphere DataStagepublibfp.boulder.ibm.com/epubs/pdf/c1248110.pdf · Sphere DataStage vertrauen, um ihre Unternehmensziele zu erreichen. InfoSphere DataStage stellt

Auf Produktdokumentation zugreifen und Feedback geben

Die Produktdokumentation steht in einer Reihe unterschiedlicher Formate zur Ver-fügung und kann über verschiedene Zugriffsmöglichkeiten abgerufen werden, zumBeispiel in Hilfetexten, die direkt über die Clientschnittstellen des Produkts geöff-net werden, in einem die gesamte Suite umfassenden Information Center und inPDF-Büchern.

Das Information Center wird als allgemeiner Service mit IBM InfoSphere Informa-tion Server installiert. Es enthält Hilfetexte für den Großteil der Produktschnittstel-len sowie eine umfassende Dokumentation für alle Produktmodule in der Suite. Siekönnen das Information Center über das installierte Produkt öffnen oder über ei-nen Web-Browser.

Zugriff auf das Information Center

Zum Öffnen des installierten Information Center stehen Ihnen die nachfolgend be-schriebenen Methoden zur Verfügung.v Klicken Sie auf den Link Hilfe rechts oben in der Clientschnittstelle.

Anmerkung: In IBM InfoSphere FastTrack und in IBM InfoSphere InformationServer Manager wird über den Hilfe-Hauptmenüpunkt eine lokale Hilfefunktiongeöffnet. Wählen Sie Hilfe > Information Center öffnen aus, um das Informati-on Center mit vollem Funktionsumfang zu öffnen.

v Drücken Sie die Taste F1. Mit der Taste F1 wird normalerweise das Thema auf-gerufen, das eine Beschreibung des aktuellen Kontexts der Clientschnittstelle ent-hält.

Anmerkung: In Web-Client kann die Taste F1 nicht verwendet werden.v Mithilfe eines Web-Browsers können Sie auf das installierte Information Center

zugreifen, auch wenn Sie nicht am Produkt angemeldet sind. Geben Sie die fol-genden Adresse in einem Web-Browser ein: http://Hostname:Portnummer/info-center/topic/com.ibm.swg.im.iis.productization.iisinfsv.home.doc/ic-home-page.html. Dabei ist 'Hostname' der Name des Computers der Serviceschicht,auf dem das Information Center installiert ist, und 'Portnummer' ist die Port-nummer für InfoSphere Information Server. Die Standardportnummer lautet9080. Auf einem Microsoft® Windows® Server-Computer mit dem Namen'iisdocs2' weist die Webadresse zum Beispiel das folgende Format auf:http://iisdocs2:9080/infocenter/topic/com.ibm.swg.im.iis.productization.iisinfsv.nav.doc/dochome/iisinfsrv_home.html.

Ein Teil des Information Center ist auch auf der IBM Website unter http://publib.boulder.ibm.com/infocenter/iisinfsv/v8r7/index.jsp verfügbar und wird inregelmäßigen Abständen aktualisiert.

29

Page 36: Einf.hrung in IBM InfoSphere DataStagepublibfp.boulder.ibm.com/epubs/pdf/c1248110.pdf · Sphere DataStage vertrauen, um ihre Unternehmensziele zu erreichen. InfoSphere DataStage stellt

PDF- und Hardcopy-Dokumentation abrufenv Ein Teil der Handbücher im PDF-Format wird über das Softwareinstallationspro-

gramm von InfoSphere Information Server sowie über die Verteilerdatenträgerbereitgestellt. Die übrigen Handbücher im PDF-Format sind nur online verfüg-bar und können über https://www.ibm.com/support/docview.wss?uid=swg27008803&wv=1 aufgerufen werden.

v Sie können IBM Veröffentlichungen auch im Hardcopy-Format online oder überden zuständigen IBM Ansprechpartner bestellen. Wenn Sie Veröffentlichungenonline bestellen möchten, rufen Sie das IBM Publications Center unter http://www.ibm.com/e-business/linkweb/publications/servlet/pbi.wss auf.

Kommentare zur Dokumentation senden

Ihr Feedback hilft IBM beim Anbieten hochwertiger Informationen. Sie haben diefolgenden Möglichkeiten, Kommentare zu senden:v Sie können einen Kommentar zum Information Center senden, indem Sie auf

den Link 'Feedback' klicken, der sich rechts oben in jedem Thema des Informati-on Center befindet.

v Senden Sie Ihre Kommentare mithilfe des Onlineformulars für Leserkommentareunter www.ibm.com/software/awdtools/rcf/.

v Senden Sie Ihre Kommentare per E-Mail an [email protected]. Geben Siedabei den Namen des Produkts, die Versionsnummer des Produkts sowie denNamen und die Teilenummer der Informationen (falls vorhanden) an. Wenn SieKommentare zu bestimmtem Text haben, geben Sie die Position des Texts an(z. B. einen Titel, eine Tabellennummer oder eine Seitenzahl).

v Sie können die Umfrage zur Verbraucherfreundlichkeit von Software nutzen,um allgemeines Feedback zu Produkten zu geben (Consumability Survey unterwww.ibm.com/software/data/info/consumability-survey, deutsche Version un-ter https://www-950.ibm.com/survey/oid/wsb.dll/studies/consumabilitywebform.htm?renderlang=de).

30 Einführung in IBM InfoSphere DataStage

Page 37: Einf.hrung in IBM InfoSphere DataStagepublibfp.boulder.ibm.com/epubs/pdf/c1248110.pdf · Sphere DataStage vertrauen, um ihre Unternehmensziele zu erreichen. InfoSphere DataStage stellt

Bemerkungen und Marken

Die vorliegenden Informationen wurden für Produkte und Services entwickelt, dieauf dem deutschen Markt angeboten werden.

Bemerkungen

Möglicherweise bietet IBM die in dieser Dokumentation beschriebenen Produkte,Services oder Funktionen in anderen Ländern nicht an. Informationen über die ge-genwärtig im jeweiligen Land verfügbaren Produkte und Services sind beim zu-ständigen IBM Ansprechpartner erhältlich. Hinweise auf IBM Lizenzprogrammeoder andere IBM Produkte bedeuten nicht, dass nur Programme, Produkte oderServices von IBM verwendet werden können. Anstelle der IBM Produkte, Program-me oder Services können auch andere, ihnen äquivalente Produkte, Programmeoder Services verwendet werden, solange diese keine gewerblichen oder anderenSchutzrechte von IBM verletzen. Die Verantwortung für den Betrieb von Produk-ten, Programmen und Services anderer Anbieter liegt beim Kunden.

Für in dieser Dokumentation beschriebene Erzeugnisse und Verfahren kann es IBMPatente oder Patentanmeldungen geben. Mit der Auslieferung dieses Handbuchsist keine Lizenzierung dieser Patente verbunden. Lizenzanforderungen sind schrift-lich an folgende Adresse zu richten (Anfragen an diese Adresse müssen auf Eng-lisch formuliert werden):

IBM Director of LicensingIBM Europe, Middle East & AfricaTour Descartes2, avenue Gambetta92066 Paris La DefenseFrance

Trotz sorgfältiger Bearbeitung können technische Ungenauigkeiten oder Druckfeh-ler in dieser Veröffentlichung nicht ausgeschlossen werden. Die hier enthaltenen In-formationen werden in regelmäßigen Zeitabständen aktualisiert und als Neuausga-be veröffentlicht. IBM kann ohne weitere Mitteilung jederzeit Verbesserungen und/oder Änderungen an den in dieser Veröffentlichung beschriebenen Produkten und/oder Programmen vornehmen.

Verweise in diesen Informationen auf Websites anderer Anbieter werden lediglichals Service für den Kunden bereitgestellt und stellen keinerlei Billigung des Inhaltsdieser Websites dar. Das über diese Websites verfügbare Material ist nicht Bestand-teil des Materials für dieses IBM Produkt. Die Verwendung dieser Websites ge-schieht auf eigene Verantwortung.

Werden an IBM Informationen eingesandt, können diese beliebig verwendet wer-den, ohne dass eine Verpflichtung gegenüber dem Einsender entsteht.

Lizenznehmer des Programms, die Informationen zu diesem Produkt wünschenmit der Zielsetzung: (i) den Austausch von Informationen zwischen unabhängigvoneinander erstellten Programmen und anderen Programmen (einschließlich desvorliegenden Programms) sowie (ii) die gemeinsame Nutzung der ausgetauschtenInformationen zu ermöglichen, wenden sich an folgende Adresse:

31

Page 38: Einf.hrung in IBM InfoSphere DataStagepublibfp.boulder.ibm.com/epubs/pdf/c1248110.pdf · Sphere DataStage vertrauen, um ihre Unternehmensziele zu erreichen. InfoSphere DataStage stellt

IBM CorporationJ46A/G4555 Bailey AvenueSan Jose, CA 95141-1003 USA

Die Bereitstellung dieser Informationen kann unter Umständen von bestimmtenBedingungen - in einigen Fällen auch von der Zahlung einer Gebühr - abhängigsein.

Die Lieferung des in diesem Dokument beschriebenen Lizenzprogramms sowie deszugehörigen Lizenzmaterials erfolgt auf der Basis der IBM Rahmenvereinbarungbzw. der Allgemeinen Geschäftsbedingungen von IBM, der IBM InternationalenNutzungsbedingungen für Programmpakete oder einer äquivalenten Vereinbarung.

Alle in diesem Dokument enthaltenen Leistungsdaten stammen aus einer kontrol-lierten Umgebung. Die Ergebnisse, die in anderen Betriebsumgebungen erzielt wer-den, können daher erheblich von den hier erzielten Ergebnissen abweichen. EinigeDaten stammen möglicherweise von Systemen, deren Entwicklung noch nicht ab-geschlossen ist. Eine Gewährleistung, dass diese Daten auch in allgemein verfügba-ren Systemen erzielt werden, kann nicht gegeben werden. Darüber hinaus wurdeneinige Daten unter Umständen durch Extrapolation berechnet. Die tatsächlichen Er-gebnisse können davon abweichen. Benutzer dieses Dokuments sollten die entspre-chenden Daten in ihrer spezifischen Umgebung prüfen.

Alle Informationen zu Produkten anderer Anbieter stammen von den Anbieternder aufgeführten Produkte, deren veröffentlichten Ankündigungen oder anderenallgemein verfügbaren Quellen. IBM hat diese Produkte nicht getestet und kanndaher keine Aussagen zu Leistung, Kompatibilität oder anderen Merkmalen ma-chen. Fragen zu den Leistungsmerkmalen von Produkten anderer Anbieter sindan den jeweiligen Anbieter zu richten.

Aussagen über Pläne und Absichten von IBM unterliegen Änderungen oder kön-nen zurückgenommen werden und repräsentieren nur die Ziele von IBM.

Diese Veröffentlichung dient nur zu Planungszwecken. Die in dieser Veröffentli-chung enthaltenen Informationen können geändert werden, bevor die beschriebe-nen Produkte verfügbar sind.

Diese Veröffentlichung enthält Beispiele für Daten und Berichte des alltäglichenGeschäftsablaufes. Sie sollen nur die Funktionen des Lizenzprogramms illustrieren;sie können Namen von Personen, Firmen, Marken oder Produkten enthalten. Allediese Namen sind frei erfunden; Ähnlichkeiten mit tatsächlichen Namen und Ad-ressen sind rein zufällig.

COPYRIGHTLIZENZ:

Diese Veröffentlichung enthält Beispielanwendungsprogramme, die in Quellenspra-che geschrieben sind und Programmiertechniken in verschiedenen Betriebsumge-bungen veranschaulichen. Sie dürfen diese Beispielprogramme kostenlos kopieren,ändern und verteilen, wenn dies zu dem Zweck geschieht, Anwendungsprogram-me zu entwickeln, zu verwenden, zu vermarkten oder zu verteilen, die mit derAnwendungsprogrammierschnittstelle für die Betriebsumgebung konform sind, fürdie diese Beispielprogramme geschrieben werden. Diese Beispiele wurden nichtunter allen denkbaren Bedingungen getestet. Daher kann IBM die Zuverlässigkeit,Wartungsfreundlichkeit oder Funktion dieser Programme weder zusagen nochgewährleisten.

32 Einführung in IBM InfoSphere DataStage

Page 39: Einf.hrung in IBM InfoSphere DataStagepublibfp.boulder.ibm.com/epubs/pdf/c1248110.pdf · Sphere DataStage vertrauen, um ihre Unternehmensziele zu erreichen. InfoSphere DataStage stellt

Die Beispielprogramme werden ohne Wartung (auf "as-is"-Basis) und ohne jeglicheGewährleistung zur Verfügung gestellt. IBM übernimmt keine Haftung für Schä-den, die durch die Verwendung der Beispielprogramme entstehen.

Kopien oder Teile der Beispielprogramme bzw. daraus abgeleiteter Code müssenfolgenden Copyrightvermerk beinhalten:

© (Name Ihrer Firma) (Jahr). Teile des vorliegenden Codes wurden aus Beispiel-programmen der IBM Corporation abgeleitet. © Copyright IBM Corp. _Jahr/Jahreangeben_. Alle Rechte vorbehalten.

Marken

IBM, das IBM Logo und ibm.com sind Marken oder eingetragene Marken der In-ternational Business Machines Corporation. Weitere Produkt- und Servicenamenkönnen Marken von IBM oder anderen Unternehmen sein. Eine aktuelle Liste derIBM Marken finden Sie im Web unter http://www.ibm.com/legal/copytrade.shtml.

Die folgenden Namen sind Marken oder eingetragene Marken anderer Unterneh-men:

Adobe ist eine eingetragene Marke der Adobe Systems Incorporated in den USAund/oder anderen Ländern.

Intel und Itanium sind Marken oder eingetragene Marken der Intel Corporationoder ihrer Tochtegesellschaften in den USA und/oder anderen Ländern.

Linux ist eine eingetragene Marke von Linus Torvalds in den USA und/oder ande-ren Ländern.

Microsoft, Windows und Windows NT sind Marken der Microsoft Corporation inden USA und/oder anderen Ländern.

UNIX ist eine eingetragene Marke von The Open Group in den USA und anderenLändern.

Java und alle auf Java basierenden Marken und Logos sind Marken oder eingetra-gene Marken der Oracle Corporation und/oder ihrer verbundenen Unternehmen.

United States Postal Service ist Inhaber der folgenden Marken: CASS, CASS Certi-fied, DPV, LACSLink, ZIP, ZIP + 4, ZIP Code, Post Office, Postal Service, USPS undUnited States Postal Service. Die IBM Corporation ist ein nicht ausschließlicher Li-zenznehmer für DPV und LACSLink.

Weitere Unternehmens-, Produkt- oder Servicenamen können Marken anderer Her-steller sein.

Bemerkungen und Marken 33

Page 40: Einf.hrung in IBM InfoSphere DataStagepublibfp.boulder.ibm.com/epubs/pdf/c1248110.pdf · Sphere DataStage vertrauen, um ihre Unternehmensziele zu erreichen. InfoSphere DataStage stellt

34 Einführung in IBM InfoSphere DataStage

Page 41: Einf.hrung in IBM InfoSphere DataStagepublibfp.boulder.ibm.com/epubs/pdf/c1248110.pdf · Sphere DataStage vertrauen, um ihre Unternehmensziele zu erreichen. InfoSphere DataStage stellt

Kontaktaufnahme mit IBM

Sie können sich an IBM wenden, um Unterstützung, Informationen zu Software-Services, Produktinformationen sowie allgemeine Informationen zu erhalten. Darü-ber hinaus können Sie Feedback zu den Produkten und zur Dokumentation anIBM senden.

In der folgenden Tabelle sind Ressourcen für die Kundenunterstützung, für Soft-ware-Services, für Schulungen sowie für Produkt- und Lösungsinformationen auf-geführt.

Tabelle 2. IBM Ressourcen

Ressource Beschreibung und Position

IBM Support-Portal Sie können die Unterstützungsinformationenje nach Bedarf anpassen, indem Sie die Pro-dukte und Themen, die für Sie von Interessesind, unter www.ibm.com/support/entry/portal/Software/Information_Management/InfoSphere_Information_Server auswählen.

Software-Services Informationen zu Software-, IT- undUnternehmensberatungsservices erhalten Sieauf der Site 'Lösungen' unterwww.ibm.com/businesssolutions/de.

Meine IBM Auf der Site 'Meine IBM' unterwww.ibm.com/account/de/de/ können Sieein Konto einrichten und so Links auf IBMWebsites und Informationen Ihren speziellenAnforderungen an die technische Unterstüt-zung entsprechend verwalten.

Schulung und Zertifizierung Informationen zu technischen Schulungs-und Ausbildungsservices, mit deren HilfeEinzelpersonen sowie Mitarbeiter von Unter-nehmen und öffentlichen OrganisationenIT-Kenntnisse erwerben, optimieren und aufdem neuesten Stand halten können, findenSie unter http://www.ibm.com/software/sw-training/ bzw. www.ibm.com/support/entry/portal/Software/Information_Management/InfoSphere_Information_Server.

IBM Ansprechpartner Einen IBM Ansprechpartner, bei dem Sie In-formationen zu Lösungen erhalten, findenSie unter www.ibm.com/connect/ibm/us/en/ bzw. www.ibm.com/contact/de/de/.

35

Page 42: Einf.hrung in IBM InfoSphere DataStagepublibfp.boulder.ibm.com/epubs/pdf/c1248110.pdf · Sphere DataStage vertrauen, um ihre Unternehmensziele zu erreichen. InfoSphere DataStage stellt

36 Einführung in IBM InfoSphere DataStage

Page 43: Einf.hrung in IBM InfoSphere DataStagepublibfp.boulder.ibm.com/epubs/pdf/c1248110.pdf · Sphere DataStage vertrauen, um ihre Unternehmensziele zu erreichen. InfoSphere DataStage stellt

Index

AAnforderungen 15Anforderungen zusammenstellen 15Architektur 9Ausführen von Jobs 19

BBemerkungen 31

CClientschicht 23Container 13

DDaten organisieren 14Dateneinblick 6Datenflussentwurf 16Datenintegrationstool 1Datenpartitionierung 17Datenpipelining 17

EEngine für Parallelverarbeitung 17Engineschicht 23

FFallbeispiele 3

GGemeinsam genutzter Container 13Gemeinsame Nutzung des Work-

flows 13Gruppieren von Stages und Links 13

IImplementierungspaket 19InfoSphere DataStage

Jobs 10Links 9Stages 9

InfoSphere Information Server 9, 23

JJobdetails 20Jobentwurf 15, 17Jobprotokolle 21Jobs ausführen 15, 19Jobs entwerfen 15Jobs erzeugen 15

Jobs terminieren 19Jobs überwachen 19Jobs zurücksetzen 20Jobsequenzen 11Jobstatus 20Jobüberwachung 19

KKomplexe Jobs 11Konnektivität 5Kundenunterstützung

kontaktieren 35

LLinks

Ausgabelinks 9Eingabelinks 9Referenzlinks 9Zurückweisungslinks 9

Logische Container 13Lösungen 3

MMainframe-Jobs

Übersicht über Jobs 10Marken

Liste 31Metadatenrepository-Schicht 23

NNachrichten 21

PParallele Jobs 17

Übersicht über Jobs 10Parallelverarbeitung 17Parallelverarbeitungsengine 17Präzise Daten 3Produktdokumentation

Zugriff auf 29Produkteingabehilfen

Eingabehilfen 27Projekte 14Protokolle 21Protokolltypen 21

QQuellenunterstützung 4

SSchichten 23Sequenzjob 11Server-Jobs

Übersicht über Jobs 10Serviceschicht 23Skalierbar 1, 4Software-Services

kontaktieren 35Spaltendefinitionen 12Status von Jobs 20Szenarios 3

TTabellendefinitionen 12

UUnterstützung

Kundenunterstützung 35

ZZielunterstützung 4

37

Page 44: Einf.hrung in IBM InfoSphere DataStagepublibfp.boulder.ibm.com/epubs/pdf/c1248110.pdf · Sphere DataStage vertrauen, um ihre Unternehmensziele zu erreichen. InfoSphere DataStage stellt

38 Einführung in IBM InfoSphere DataStage

Page 45: Einf.hrung in IBM InfoSphere DataStagepublibfp.boulder.ibm.com/epubs/pdf/c1248110.pdf · Sphere DataStage vertrauen, um ihre Unternehmensziele zu erreichen. InfoSphere DataStage stellt
Page 46: Einf.hrung in IBM InfoSphere DataStagepublibfp.boulder.ibm.com/epubs/pdf/c1248110.pdf · Sphere DataStage vertrauen, um ihre Unternehmensziele zu erreichen. InfoSphere DataStage stellt

����

GC12-4811-00