Fernuniversität in Hagen Seminar 01912 im Sommersemester...
Embed Size (px)
Transcript of Fernuniversität in Hagen Seminar 01912 im Sommersemester...

Torben Schrader
Fernuniversität in HagenSeminar 01912
im Sommersemester 2005„Datenströme und kontinuierliche Anfragen:
Einführung"
Motivation für Stromverarbeitung: Analyse von Netzwerkverkehr

Torben Schrader
EinführungWas sind stromorientierte Datenbanken?
•Neueres Forschungsgebiet der klassischen Datenbanken•Spezialanwendung für besondere Anwendungsfälle•Analog zu klassischen DBs, aber mit speziellem Fokus

Torben Schrader
Datenströme
Was charakterisiert Datenströme?•Insgesamt hohes und kontinuierliches Datenvolumen•Temporär sprunghafter Wechsel in der Intensität des Datenaufkommens
•Geringe Aussagekraft eines einzelnen Datensatzes –Gesamtheit aller Datensätze zählt

Torben Schrader
Stromorientierte DatenbanksystemeVerarbeiteem eingehende Datenströme direkt
•Höhere Aufnahmekapazität•Schnellere Auswertung und Darstellung•Gleichzeitig Vorteile konventioneller DB-Systeme

Torben Schrader
These
Kollege: Was machst Du da?Ich: Eine Ausarbeitung über stromverarbeitende Datenbanken und deren Einsatzmöglichkeiten im Netzwerk.Kollege : Aha -
Dinge, die die Welt nicht braucht!
(Dialog zwischen zwei Netzwerkadministratoren im Mai 2005)

Torben Schrader
Einsatzgebiete
•Medizintechnik : Patientendaten (z.B. EKG)•Warenwirtschaft : RFID – Tracking von einzelnen Objekten•Miltitärtechnik : Gefechtsfelddaten•Online Medien : Liveticker Börsendaten•Telekommunikation : Abrechnungsdaten •Strassenverkehr : Analyse des Verkehrsaufkommens•Naturschutz : Verfolgen von Tierbewegungen•Internet : Web-Server Statistiken

Torben Schrader
Datenströme + NetzwerkanalyseDatenströme in der Netzwerkanalyse
•Intrusion Detection•Auslastungsdaten (Performance-Management)•Detaillierte Analyse von Netzwerkverkehr•Netzwerkplanung •Fehlerüberwachung (Network-Health)

Torben Schrader
Bevor es DSMS gab
Wie wurde Netzwerkanalyse (vorher) durchgeführt?•Mitschneiden von Datenverkehr & nachträgliche Analyse•Auswertung von dezentral verteilten Daten von Hand•Nutzung aggregierender Verfahren (z.B. Netflow, SNMP)•Einsatz handgeschriebener Tools (z.B. C-Programme)•Einsatz verschiedener proprietärer Anwendungen•Schätzungen / Erfahrungswerte

Torben Schrader
Beispiele Netzwerkanalyse (Szenarien)Rechenzentrumentfernter Standort
Provider
WAN
Netzwerk-Management /Netflow Server
Sniffertransportabel
Sniffertransportabel
Syslog/SNMPCollector
Syslog/SNMPServer
Provider

Torben Schrader
Beispiele Netzwerkanalyse (Vorbemerkung)Datenformat z.B. IP über ATM:
112121ATM Zellenmit VCI
9180 byte9180 byte AAL-5
Aufteilung IP Paket auf ATM Zelle gem. RFC1626
IP-PaketFragment 1Fragment 0
Unfragmentiert

Torben Schrader
Beispiele Netzwerkanalyse (Konventionell)Problem : Datenimport in eine SQL Datenbank
• De-Facto Standard Ethereal unterstütztkeine direkte Datenübernahme in Datenbank
• Alternative: Kommerzielle Programme, Einzelfallentscheidung• Eigenentwicklung: Datenübernahme=Unterbrechung der Datenaufnahme
• Der Lohn: SQL Abfragen bieten erhöhte Flexibilität

Torben Schrader
Beispiele Netzwerkanalyse (SQL)
1. Filtern von ICMP Datenverkehr aus mehreren ATM Verbindungen
2. Fragmentierte IP-Pakete dürfen nur einmal gezählt werden
SELECT ATM.VCI, COUNT(ATM.IP_Identifier), ATM.ICMP FROM ATMGROUP BY ATM.VCI, ATM.IP_IdentifierHAVING (((ATM.VCI)<>42) AND (ATM.ICMP)=True));
Annahme: AAL-5 Rahmen eindeutig unterscheidbar & bereits zusammengesetzt

Torben Schrader
Beispiel Netzwerkanalyse Tribeca
TapeAtm Trace
F ileres1
F ileRes2
stream_qual {{NOT s1.vci.eq 42}} p1stream_demux {p1.atm.vci} p2stream_proj {{p2.assemble ip}} p3stream_mux p3 p4stream window w1 on p4defined by {p4.ts.interval 0.005} is fixedstream_agg{w1.count w1.length.mean} r2
Abfrage filtert durchschnittliche IP-Paketlänge aus einem ATM-Datenstrom:
entnommen aus[1]

Torben Schrader
Beispiel Netzwerkanalyse Gigascope
Skizze angelehnt an [2] S. 15
LFTA
LFTA
HFTA
Anwendung
DB
HFTA
HFTA
Vorverarbeitung /Abfrage
Vorverarbeitung /Abfrage
Eingangsdatenströme
gefilterterDatenstrom
komplexe Abfrage
komplexe Abfrage
Nutzungsmöglichkeitender Abfragen

Torben Schrader
Beispiel Netzwerkanalyse Gigascope
Abfrage : Toptalker (mögliche Aufteilung durch Gigascope):
LFTA (gelb gefärbter Bereich):DEFINE {query name IPDurchsatz}Select SourceIP, sum(totalLength) as Durchsatz, tb from eth0.TCP Group by time/60 as tb;
HFTA (blau gefärbter Bereich), Abfrage ermittelt die top 20% der Toptalker
DEFINE {query name topTalker;}SELECT *FROM IPDurchsatzWHERE ((Select Count(*) From IPDurchsatz as IP_durchsatz_1
WHERE IP durchsatz 1.durchsatz < IP durchsatz.durchsatz) >= (SELECT 0.80*Count(*) FROM IPDurchsatz));

Torben Schrader
Vergleich Tribeca / Gigascope
Geringe Verbreitung; (Experimentell)
Eingeschränkt –Experimentell
Verbreitung
OC48(2,45Gb/s)OC3 (155Mb/s)Eingabevolumen
Deklarativ – GSQL (Untermenge v. SQL)
Prozedural Abfragesprache
durchgängig stromorientiertdurchgängig stromorientiertCharakteristika
2002; AT&T1997; Bell LabsEntstehung
GigascopeTribeca

Torben Schrader
Vergleich Tribeca / Gigascope (Fortsetzung)
I/O –Zugriffe & Zwischenergebnisgröße:Frühe Selektion; Aufsplittung der Abfragen; Ordnungsattributen; Keine unnötigen Funktionen
I/O Zugriffe & Zwischenergebnisgröße: Einschränkung „gefährlicher“ Operatoren; Keine unnötigen Funktionen
Optimierungen
nur zwei Ströme, „variables“ Fenster = Ordered-Attribute
nur zwei Ströme, festes oder gleitendes Fenster
Besonderheiten Join
Selektion, Projektion,Aggregation, Group-By,Merge, [Join]
Selektion, Projektion,Aggregation,Demultiplex, Multiplex, [Join]
Abfrageoperatoren
GigascopeTribeca

Torben Schrader
Nutzen - ErgebnisseDatenbankentwicklung (Erkenntnisgewinn):
- Optimierungen durch Vereinfachung (keine persistente Speicherung, keine Transaktionaktionskontrolle / Konsistenzprüfung...)
- Aufteilung der Abfrage in Ebenen (Gigascope) = frühzeitige Optimierungen +Angepasste Operatoren, Implementierung für One-Pass Abfragen +Kontinuierliche Abfrageoptimierung <->einmaliger Optimierung /
Batchverarbeitung+ Verzicht auf Genauigkeit
Aber : Kontinuierliches, exponentielles Datenwachstum Tragfähigkeit des Konzeptes? Vergleich L7-Load-Balancer

Torben Schrader
Nutzen - ErgebnisseAnwendungsbezogen (Netzwerkadministrator):
+ Einsparung an Hardware und gute Performanz+ Flexibilisierung der Abfragemöglichkeiten+ Standardisierte und robuste Plattform für Abfrage- Genaue Definition der Daten weiterhin notwendig- Fehlende Standardisierung der Eingabeschnittstelle (LFTA)
? Notwendigkeit? Anwendungsbezogen zu definieren! Medizin - Medici

Torben Schrader
Fragen?

Torben Schrader
Quellenverzeichniss[1] M.Sullivan, A.Heybey:"Tribeca: A System für Managing Large Databases of Network Traffic" in Proceedings of the Usenix Annual Annual Technical Conference, New Orleans 1998