Fernuniversität in Hagen Seminar 01912 im Sommersemester...

Post on 30-Apr-2020

4 views 0 download

Transcript of Fernuniversität in Hagen Seminar 01912 im Sommersemester...

Torben Schrader

Fernuniversität in HagenSeminar 01912

im Sommersemester 2005„Datenströme und kontinuierliche Anfragen:

Einführung"

Motivation für Stromverarbeitung: Analyse von Netzwerkverkehr

Torben Schrader

EinführungWas sind stromorientierte Datenbanken?

•Neueres Forschungsgebiet der klassischen Datenbanken•Spezialanwendung für besondere Anwendungsfälle•Analog zu klassischen DBs, aber mit speziellem Fokus

Torben Schrader

Datenströme

Was charakterisiert Datenströme?•Insgesamt hohes und kontinuierliches Datenvolumen•Temporär sprunghafter Wechsel in der Intensität des Datenaufkommens

•Geringe Aussagekraft eines einzelnen Datensatzes –Gesamtheit aller Datensätze zählt

Torben Schrader

Stromorientierte DatenbanksystemeVerarbeiteem eingehende Datenströme direkt

•Höhere Aufnahmekapazität•Schnellere Auswertung und Darstellung•Gleichzeitig Vorteile konventioneller DB-Systeme

Torben Schrader

These

Kollege: Was machst Du da?Ich: Eine Ausarbeitung über stromverarbeitende Datenbanken und deren Einsatzmöglichkeiten im Netzwerk.Kollege : Aha -

Dinge, die die Welt nicht braucht!

(Dialog zwischen zwei Netzwerkadministratoren im Mai 2005)

Torben Schrader

Einsatzgebiete

•Medizintechnik : Patientendaten (z.B. EKG)•Warenwirtschaft : RFID – Tracking von einzelnen Objekten•Miltitärtechnik : Gefechtsfelddaten•Online Medien : Liveticker Börsendaten•Telekommunikation : Abrechnungsdaten •Strassenverkehr : Analyse des Verkehrsaufkommens•Naturschutz : Verfolgen von Tierbewegungen•Internet : Web-Server Statistiken

Torben Schrader

Datenströme + NetzwerkanalyseDatenströme in der Netzwerkanalyse

•Intrusion Detection•Auslastungsdaten (Performance-Management)•Detaillierte Analyse von Netzwerkverkehr•Netzwerkplanung •Fehlerüberwachung (Network-Health)

Torben Schrader

Bevor es DSMS gab

Wie wurde Netzwerkanalyse (vorher) durchgeführt?•Mitschneiden von Datenverkehr & nachträgliche Analyse•Auswertung von dezentral verteilten Daten von Hand•Nutzung aggregierender Verfahren (z.B. Netflow, SNMP)•Einsatz handgeschriebener Tools (z.B. C-Programme)•Einsatz verschiedener proprietärer Anwendungen•Schätzungen / Erfahrungswerte

Torben Schrader

Beispiele Netzwerkanalyse (Szenarien)Rechenzentrumentfernter Standort

Provider

WAN

Netzwerk-Management /Netflow Server

Sniffertransportabel

Sniffertransportabel

Syslog/SNMPCollector

Syslog/SNMPServer

Provider

Torben Schrader

Beispiele Netzwerkanalyse (Vorbemerkung)Datenformat z.B. IP über ATM:

112121ATM Zellenmit VCI

9180 byte9180 byte AAL-5

Aufteilung IP Paket auf ATM Zelle gem. RFC1626

IP-PaketFragment 1Fragment 0

Unfragmentiert

Torben Schrader

Beispiele Netzwerkanalyse (Konventionell)Problem : Datenimport in eine SQL Datenbank

• De-Facto Standard Ethereal unterstütztkeine direkte Datenübernahme in Datenbank

• Alternative: Kommerzielle Programme, Einzelfallentscheidung• Eigenentwicklung: Datenübernahme=Unterbrechung der Datenaufnahme

• Der Lohn: SQL Abfragen bieten erhöhte Flexibilität

Torben Schrader

Beispiele Netzwerkanalyse (SQL)

1. Filtern von ICMP Datenverkehr aus mehreren ATM Verbindungen

2. Fragmentierte IP-Pakete dürfen nur einmal gezählt werden

SELECT ATM.VCI, COUNT(ATM.IP_Identifier), ATM.ICMP FROM ATMGROUP BY ATM.VCI, ATM.IP_IdentifierHAVING (((ATM.VCI)<>42) AND (ATM.ICMP)=True));

Annahme: AAL-5 Rahmen eindeutig unterscheidbar & bereits zusammengesetzt

Torben Schrader

Beispiel Netzwerkanalyse Tribeca

TapeAtm Trace

F ileres1

F ileRes2

stream_qual {{NOT s1.vci.eq 42}} p1stream_demux {p1.atm.vci} p2stream_proj {{p2.assemble ip}} p3stream_mux p3 p4stream window w1 on p4defined by {p4.ts.interval 0.005} is fixedstream_agg{w1.count w1.length.mean} r2

Abfrage filtert durchschnittliche IP-Paketlänge aus einem ATM-Datenstrom:

entnommen aus[1]

Torben Schrader

Beispiel Netzwerkanalyse Gigascope

Skizze angelehnt an [2] S. 15

LFTA

LFTA

HFTA

Anwendung

DB

HFTA

HFTA

Vorverarbeitung /Abfrage

Vorverarbeitung /Abfrage

Eingangsdatenströme

gefilterterDatenstrom

komplexe Abfrage

komplexe Abfrage

Nutzungsmöglichkeitender Abfragen

Torben Schrader

Beispiel Netzwerkanalyse Gigascope

Abfrage : Toptalker (mögliche Aufteilung durch Gigascope):

LFTA (gelb gefärbter Bereich):DEFINE {query name IPDurchsatz}Select SourceIP, sum(totalLength) as Durchsatz, tb from eth0.TCP Group by time/60 as tb;

HFTA (blau gefärbter Bereich), Abfrage ermittelt die top 20% der Toptalker

DEFINE {query name topTalker;}SELECT *FROM IPDurchsatzWHERE ((Select Count(*) From IPDurchsatz as IP_durchsatz_1

WHERE IP durchsatz 1.durchsatz < IP durchsatz.durchsatz) >= (SELECT 0.80*Count(*) FROM IPDurchsatz));

Torben Schrader

Vergleich Tribeca / Gigascope

Geringe Verbreitung; (Experimentell)

Eingeschränkt –Experimentell

Verbreitung

OC48(2,45Gb/s)OC3 (155Mb/s)Eingabevolumen

Deklarativ – GSQL (Untermenge v. SQL)

Prozedural Abfragesprache

durchgängig stromorientiertdurchgängig stromorientiertCharakteristika

2002; AT&T1997; Bell LabsEntstehung

GigascopeTribeca

Torben Schrader

Vergleich Tribeca / Gigascope (Fortsetzung)

I/O –Zugriffe & Zwischenergebnisgröße:Frühe Selektion; Aufsplittung der Abfragen; Ordnungsattributen; Keine unnötigen Funktionen

I/O Zugriffe & Zwischenergebnisgröße: Einschränkung „gefährlicher“ Operatoren; Keine unnötigen Funktionen

Optimierungen

nur zwei Ströme, „variables“ Fenster = Ordered-Attribute

nur zwei Ströme, festes oder gleitendes Fenster

Besonderheiten Join

Selektion, Projektion,Aggregation, Group-By,Merge, [Join]

Selektion, Projektion,Aggregation,Demultiplex, Multiplex, [Join]

Abfrageoperatoren

GigascopeTribeca

Torben Schrader

Nutzen - ErgebnisseDatenbankentwicklung (Erkenntnisgewinn):

- Optimierungen durch Vereinfachung (keine persistente Speicherung, keine Transaktionaktionskontrolle / Konsistenzprüfung...)

- Aufteilung der Abfrage in Ebenen (Gigascope) = frühzeitige Optimierungen +Angepasste Operatoren, Implementierung für One-Pass Abfragen +Kontinuierliche Abfrageoptimierung <->einmaliger Optimierung /

Batchverarbeitung+ Verzicht auf Genauigkeit

Aber : Kontinuierliches, exponentielles Datenwachstum Tragfähigkeit des Konzeptes? Vergleich L7-Load-Balancer

Torben Schrader

Nutzen - ErgebnisseAnwendungsbezogen (Netzwerkadministrator):

+ Einsparung an Hardware und gute Performanz+ Flexibilisierung der Abfragemöglichkeiten+ Standardisierte und robuste Plattform für Abfrage- Genaue Definition der Daten weiterhin notwendig- Fehlende Standardisierung der Eingabeschnittstelle (LFTA)

? Notwendigkeit? Anwendungsbezogen zu definieren! Medizin - Medici

Torben Schrader

Fragen?

Torben Schrader

Quellenverzeichniss[1] M.Sullivan, A.Heybey:"Tribeca: A System für Managing Large Databases of Network Traffic" in Proceedings of the Usenix Annual Annual Technical Conference, New Orleans 1998