Informationsintegration Dynamische Programmierung 8.12.2005 Felix Naumann.

Informationsintegration

Dynamische Programmierung

8.12.2005

Felix Naumann

8.12.2005 Felix Naumann, VL Informationsintegration, WS 05/06 2

Überblick

Dynamische Programmierung (DP) zur Anfrageoptimierung Grundlagen der DP Das Grundproblem der

Anfrageoptimierung DP für Anfrageoptimierung DP für verteilte DBMS

Richard Bellman

1920 – 1984 PhD Princeton (3 Monate) Los Alamos (1944-1946) 1953 Rand Corporation: Erfindung der

Dynamischen Programmierung Viele andere Beiträge zur Mathematik

Bellman-Ford Algorithmus

The Stagecoach story

some 150 years ago there was a salesman travelling west by stagecoach ..

Quelle: Folien Ioana Popescu http://faculty.insead.edu/popescu/ioana/

San FranciscoNew York

Versicherungskosten

Frage: Welches ist der beste (billigste) Weg?

Billigster Weg – Greedy Suche

Greedy: A-B-F-I-J = 13 Frage: Gibt es einen besseren Weg?

Billigster Weg – Vollständige Suche

Besser: A-D-F-I-J = 11 Anzahl der möglichen Wege: 3 x 3 x 2 = 18

The Stagecoach Solution Idee der Dynamischen

Programmierung Hier: “Rückwärtsberechnung”

Voraussetzung: Prinzip der Optimalität Teilplan eines optimalen Plans ist

ebenfalls optimal Idee

Ausgehend vom Zielknoten stufenweise rückwärts beste Teilpfade berechnen

F(X) := minimale Kosten von X nach J

Billigster Weg - DP

F(X) : = min Kosten von X nach J

F(J)=0

F(I)=4

F(H)=3

F(G)=6

F(F)=7

F(E)=4

F(D)=8

F(C)=7

F(B)=11

F(A)=11

Optimaler Algorithmus „Schwierigkeiten“

Prinzip der Optimalität muss gelten. Aufteilung des Problems in Teilprobleme

Aufwand kann exponentiell sein Klassische Anwendungen

Knapsack Problem Traveling Salesman Problem Maschinenbelegung Transportproblem

Überblick

Architektur zur Anfragebearbeitung

ParserAnfrage-

umschreibungAnfrage-

optimierungCode

GenerierungAnfragebearbeitung

(Engine)

Katalog/Metadaten

Anfrage

Anfrage-ergebnis

Syntax und etwas SemantikErzeugt Anfragegraph

Logische Optimierung (unabhängig von System und Konfiguration):Entschachtelung, redundante Prädikate,...

Optimierung für System und Konfiguration:Indices, Joinreihenfolge, Selektion der Datenquelle

Wandelt Plan (Baum) in ausführbaren Plan (Code) um.

Schema, Statistik, Partitionierung, Lage der Daten,...

Anfrageoptimierung

Suchraum Alle gültigen Anfragepläne

Kostenmodell Join-Operator Netzwerkkosten

Optimierungsproblem Finde im Suchraum den kostenoptimalen

Anfrageplan.

Anfrageplanung

Heuristische Einschränkung des Suchraums Keine Kreuzprodukte

Außer explizite Kreuzprodukte in der Anfrage Prädikate so früh wie möglich Nur links-tiefe (left-deep) Bäume

⋈R S

⋈Pipelined Execution

Bushy Zig-Zag Left-Deep

Überblick

Dynamische Programmierung: Optimierung im System-R A.k.a. “Selinger-style query optimization”

Der klassische Artikel zur Anfrageoptimierung: [SAC+79] Ursprünglich im IBM System-R Heutzutage weit verbreitet

Grundidee: Nur “Left-deep” Anfragebäume

D.h. nur Joinreihenfolge interessant Innere und äußere Relation unberücksichtigt

Bottom-up Generierung von Anfrageplänen Dynamische Programmierung (DP)

Zusätzlich: interesting orders (interessante Sortierungen) Zusätzlich: interesting sites (interessante Ausführungsorte)

Literatur mit Beispiel: [GMUW00]

Quelle: u.a. Folien Prof. Chen Li

Bottom-up Anfrageplangenerierung Grundannahme 1:

Nach dem Join über k Relationen ist die Join-Methode die k+1te Relation um hinzuzujoinen unabhängig von den vorigen Join-Methoden. Joinmethoden: Nested Loops, Hashjoin, Sort-Merge Join usw.

Grundannahme 2: Jeder Teilplan eines optimalen Plans ist ebenfalls optimal. Entspricht dem Prinzip der Optimalität: Wenn sich zwei Pläne nur in einem

Teilplan unterscheiden, so ist der Plan mit dem besseren Teilplan auch der bessere Gesamtplan

Bottom-up Anfrageplangenerierung: Berechne die optimalen Pläne für den Join über (jede Kombination von) k

Relationen Suboptimale Pläne werden verworfen Erweitere diese Pläne zu optimalen Plänen für k+1 Relationen. usw. bis k = n

{R} {S} {T} {U}

{R S} {R T} {R U} {S T} {S U} {T U}

{R S T} {R S U} {S T U} {R T U}

{R S T U}

DP – Grundidee für Anfrageoptimierung Für jede Kombination merke (in einer Hilfstabelle):

Geschätzte Größe des Ergebnisses (Kardinalität) Geschätzte minimale Kosten

Hier zur Vereinfachung: Größe des Zwischenergebnisses Joinreihenfolge, die diese Kosten verursacht (= optimaler Teilplan)

Induktion über Anzahl der Relationen im Plan N=1: Für jede Relation

Kardinalität = Kardinalität der Relation Kosten = 0 (zur Vereinfachung) Joinreihenfolge: n/a

N=2: Für jedes Relationenpaar R, S Kardinalität = |R| x |S| x sf Kosten = 0 Joinreihenfolge: kleinere Relation links Clou: R und S jeweils mit besten access-path

N=3: Für jedes Tripel R, S, T Clou: Nur bestes Relationenpaar aus dem Tripel wird um dritte Relation ergänzt

DP – Beispiel

{R} {S} {T} {U}

1000 1000 1000 1000

0 0 0 0

scan(R) scan(S) scan(T) scan(U)

• Anfrage über Relationen R, S, T, U.• Vier Join-Bedingungen

Anfragegraph

u.U. auch IndexScan(...)

DP – Beispiel{R,S} {R,T} {R,U} {S,T} {S,U} {T,U}

Kardinalität 5000 1M 10000 2000 1M 1000

Kosten 0 0 0 0 0 0

opt. Plan R S R T R U S T S U T U

{R,S,T} {R,S,U} {R,T,U} {S,T,U}

Kardinalität 10000 50000 10000 2000

Kosten 2000 5000 1000 1000

opt. Plan (S T) R (R S) U (T U) R (T U) S

Kreuzprodukte nicht berücksichtigen!

Besser als z.B. S ⋈ (T ⋈ R) oder (R ⋈ S) ⋈ T

DP – Beispiel{R,S,T} {R,S,U} {R,T,U} {S,T,U}

Kardinalität 10000 50000 10000 2000

Kosten 2000 5000 1000 1000

opt. Plan (S T) R (R S) U (T U) R (T U) S

Plan Kosten

((S T) R) U 12k

((R S) U) T 55k

((T U) R) S 11k

((T U) S) R 3k

Anfragegraph

Optimaler (left-deep) Plan

Bisher unberücksichtigt:Wahl des Join-Algorithmus

DP - interesting orders (Interessante Sortierung) WdH.: Prinzip der Optimalität: Wenn sich zwei Pläne nur in einem

Teilplan unterscheiden, so ist der Plan mit dem besseren Teilplan auch der bessere Gesamtplan.

Gegenbeispiel: R(A,B) ⋈ S(A,C) ⋈ T(A,D) Bester (lokaler) Plan für R ⋈ S: Hash-Join Best (globaler) Gesamtplan:

1. Sort-merge Join über R und S 2. Sort-merge Join mit T

Warum könnte dies so sein? Das Zwischenergebnis von R ⋈sort-mergeS ist nach Join-Attribut A sortiert. Dies ist eine interesting order, die später ausgenutzt werden kann:

Spätere sort-merge Joins Gruppierung (GROUP BY) Sortierung (ORDER BY) Eindeutige Tupel (DISTINCT)

DP - interesting orders (Interessante Sortierung) Bei Auswahl des besten Teilplans:

Kostenvergleich genügt nicht. Es gibt keine vollständige Ordnung der Teilpläne nach

Kosten. Auch Sortierungen müssen berücksichtigt werden.

Lösung: Für jede Kombination von Relationen, speichere mehrere Sortiervarianten:

1. Nach jeder Variante der beteiligten Teilpläne2. Die “leere” Sortierung DP Tabellen werden „breiter“.

Merke außerdem Join- und Sortieroperationen, die diese Sortierung erzeugen.

DP – Algorithmus

Quelle: [Ko00]

Alle Zugriffspläne für jede Relation

Schlechtere Zugriffs-pläne verwerfen

Achtung: Nicht left-deep!

Überblick

DP in verteilten Systemen

Entscheidungen des Optimierers Zugriffpfade auf Relationen

Table-scan, Index-scan Joinreihenfolge Art der Join-Berechnung

Nested loops, sort-merge usw. Neu: Ort der Join-Berechnung

Am Speicherort der inneren Relation / des Zwischenergebnisses Am Speicherort der äußere Relation / des Zwischenergebnisses Am Ort der Weiterverarbeitung Anderswo, z.B. Ort der schnellsten CPU

DP in verteilten SystemenBerücksichtigung (und Repräsentation) mehrerer Speicherorte⇒ mehr Zugrifspläne

Berücksichtigung (und Repräsentation) des Ausführungsortes des Joins

⇒ interesting order und interesting site⇒ mehr Zugrifspläne

Am Ende gegebenenfalls noch ship Operator anfügen.

Literatur Das grundlegende Paper

[SAC+79] Patricia G. Selinger, Morton M. Astrahan, Donald D. Chamberlin, Raymond A. Lorie, Thomas G. Price: Access Path Selection in a Relational Database Management System. SIGMOD Conference 1979: 23-34

Englisches Lehrbuch [GMUW00] Hector Garcia-Molina, Jeffrey D. Ullman, Jennifer Widom:

Database System Implementation Prentice-Hall 2000 Weiteres

[Ko00] The State of the Art in Distributed Query Processing, Donald Kossmann, ACM Computing Surveys 32(4), pages 422-469. (Link auf WWW)

[OK00] Kiyoshi Ono, Guy M. Lohman: Measuring the Complexity of Join Enumeration in Query Optimization. VLDB 1990: 314-325

[HFLP89] Laura M. Haas, Johann Christoph Freytag, Guy M. Lohman, Hamid Pirahesh: Extensible Query Processing in Starburst. SIGMOD Conference 1989: 377-388

[Graefe93] Goetz Graefe: Query Evaluation Techniques for Large Databases. ACM Comput. Surv. 25(2): 73-170 (1993)

Informationsintegration Dynamische Programmierung 8.12.2005 Felix Naumann.

Documents

Transcript of Informationsintegration Dynamische Programmierung 8.12.2005 Felix Naumann.

Informationsintegration für Entscheidungsprozesse im ... · Informationsintegration für Entscheidungsprozesse im Corporate Knowledge Center Mario Klesse, Eitel von Maur Universität

Die letzten Sieben Hingerichteten · 2010. 8. 20. · DIE LANDSBERG 1M 20. LETZTEN 7 HINGERICHTETEN Erich Naumann, 46 (Einsatzgruppen-Prozeß) Naumann wurde im November 1941 als Chef

Informationsintegration - hu-berlin.de · Enterprise Application Integration • „Integration ist ein Produkt, kein Projekt“ • Viele kommerzielle Produkte und Anbieter • Grundprinzip

Informationsintegration Top-N Anfragen 13.12.2005 Felix Naumann.

Informationsintegration Containment und Local-as-View Anfragebearbeitung 12.1.2006 Felix Naumann.

Informationsintegration und mobile Web- Anwendungendbis.ipd.kit.edu/download/10_Ueberblick.pdfInformationsintegration und mobile Web-Anwendungen Wintersemester 2014/2015 2 Termine

Softwareprojekt Shopverwaltung Jana Naumann Lukas Berliner Michelle Ohlendorf.

Informationsintegration Der Bucket-Algorithmus 17.1.2006 Felix Naumann.

Vorlesung: Biometrie für Studierende der Veterinärmedizin 8.12.2005 1 Assoziation zweier diskreter Merkmale Erhebung von zwei (oder mehr) Merkmalen: Frage.

Informationsintegration Einführung 18.10.2005 Felix Naumann.

Seminar Informationsintegration und Informationsqualit˜atlgis.informatik.uni-kl.de/.../SS2006/DokumenteIntern/Folien09_Kaeppler.pdf · Grundlagen der Informationsintegration... reviewed!

Braucht Reutlingen eine Stadthalle? 07.02.2006. Die Kulturkonzeption sagt: Ja. Erarbeitet vom Kulturamt mit breiter Beteiligung vom 22.6.2004 – 8.12.2005:

Jahresendseminar Dezember 2012 Referent Peter Lentschig Referent Dennis Naumann.

Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

Schwerpunktprogramm (SPP) Netzbasierte Wissenskommunikation in Gruppen Gefördert von der Deutschen Forschungsgemeinschaft Computervermittelte Informationsintegration.

Business Intelligence (BI) Innovative Ansätze zur ...€¦ · Business Intelligence als eigenständiger Ordnungsrahmen! Abgrenzung von herkömmlichen Ansätzen ! Vertikale Informationsintegration

David Politzer Frank Wilczek David Gross Th. Naumann DESY.

powered by Weber Shandwick fileDienstag, 30.07.2013 • 10:00 Naumann-Stiftung zu Staat und Religion Tagung der Friedrich-Naumann-Stiftung zum Thema "Modelle des Säkularismus - Das

Die Geschichte vom Anfang der Welt Th. Naumann DESY Zeuthen.

Informationsintegration Das Verborgene Web ( Hidden Web )