Fernuniversität in Hagen Seminar 01912 im Sommersemester...

21
Torben Schrader Fernuniversität in Hagen Seminar 01912 im Sommersemester 2005 „Datenströme und kontinuierliche Anfragen: Einführung" Motivation für Stromverarbeitung: Analyse von Netzwerkverkehr

Transcript of Fernuniversität in Hagen Seminar 01912 im Sommersemester...

Page 1: Fernuniversität in Hagen Seminar 01912 im Sommersemester ...dna.fernuni-hagen.de/Lehre-offen/Seminare/1912-SS05/Vortraege/01… · •Intrusion Detection •Auslastungsdaten (Performance-Management)

Torben Schrader

Fernuniversität in HagenSeminar 01912

im Sommersemester 2005„Datenströme und kontinuierliche Anfragen:

Einführung"

Motivation für Stromverarbeitung: Analyse von Netzwerkverkehr

Page 2: Fernuniversität in Hagen Seminar 01912 im Sommersemester ...dna.fernuni-hagen.de/Lehre-offen/Seminare/1912-SS05/Vortraege/01… · •Intrusion Detection •Auslastungsdaten (Performance-Management)

Torben Schrader

EinführungWas sind stromorientierte Datenbanken?

•Neueres Forschungsgebiet der klassischen Datenbanken•Spezialanwendung für besondere Anwendungsfälle•Analog zu klassischen DBs, aber mit speziellem Fokus

Page 3: Fernuniversität in Hagen Seminar 01912 im Sommersemester ...dna.fernuni-hagen.de/Lehre-offen/Seminare/1912-SS05/Vortraege/01… · •Intrusion Detection •Auslastungsdaten (Performance-Management)

Torben Schrader

Datenströme

Was charakterisiert Datenströme?•Insgesamt hohes und kontinuierliches Datenvolumen•Temporär sprunghafter Wechsel in der Intensität des Datenaufkommens

•Geringe Aussagekraft eines einzelnen Datensatzes –Gesamtheit aller Datensätze zählt

Page 4: Fernuniversität in Hagen Seminar 01912 im Sommersemester ...dna.fernuni-hagen.de/Lehre-offen/Seminare/1912-SS05/Vortraege/01… · •Intrusion Detection •Auslastungsdaten (Performance-Management)

Torben Schrader

Stromorientierte DatenbanksystemeVerarbeiteem eingehende Datenströme direkt

•Höhere Aufnahmekapazität•Schnellere Auswertung und Darstellung•Gleichzeitig Vorteile konventioneller DB-Systeme

Page 5: Fernuniversität in Hagen Seminar 01912 im Sommersemester ...dna.fernuni-hagen.de/Lehre-offen/Seminare/1912-SS05/Vortraege/01… · •Intrusion Detection •Auslastungsdaten (Performance-Management)

Torben Schrader

These

Kollege: Was machst Du da?Ich: Eine Ausarbeitung über stromverarbeitende Datenbanken und deren Einsatzmöglichkeiten im Netzwerk.Kollege : Aha -

Dinge, die die Welt nicht braucht!

(Dialog zwischen zwei Netzwerkadministratoren im Mai 2005)

Page 6: Fernuniversität in Hagen Seminar 01912 im Sommersemester ...dna.fernuni-hagen.de/Lehre-offen/Seminare/1912-SS05/Vortraege/01… · •Intrusion Detection •Auslastungsdaten (Performance-Management)

Torben Schrader

Einsatzgebiete

•Medizintechnik : Patientendaten (z.B. EKG)•Warenwirtschaft : RFID – Tracking von einzelnen Objekten•Miltitärtechnik : Gefechtsfelddaten•Online Medien : Liveticker Börsendaten•Telekommunikation : Abrechnungsdaten •Strassenverkehr : Analyse des Verkehrsaufkommens•Naturschutz : Verfolgen von Tierbewegungen•Internet : Web-Server Statistiken

Page 7: Fernuniversität in Hagen Seminar 01912 im Sommersemester ...dna.fernuni-hagen.de/Lehre-offen/Seminare/1912-SS05/Vortraege/01… · •Intrusion Detection •Auslastungsdaten (Performance-Management)

Torben Schrader

Datenströme + NetzwerkanalyseDatenströme in der Netzwerkanalyse

•Intrusion Detection•Auslastungsdaten (Performance-Management)•Detaillierte Analyse von Netzwerkverkehr•Netzwerkplanung •Fehlerüberwachung (Network-Health)

Page 8: Fernuniversität in Hagen Seminar 01912 im Sommersemester ...dna.fernuni-hagen.de/Lehre-offen/Seminare/1912-SS05/Vortraege/01… · •Intrusion Detection •Auslastungsdaten (Performance-Management)

Torben Schrader

Bevor es DSMS gab

Wie wurde Netzwerkanalyse (vorher) durchgeführt?•Mitschneiden von Datenverkehr & nachträgliche Analyse•Auswertung von dezentral verteilten Daten von Hand•Nutzung aggregierender Verfahren (z.B. Netflow, SNMP)•Einsatz handgeschriebener Tools (z.B. C-Programme)•Einsatz verschiedener proprietärer Anwendungen•Schätzungen / Erfahrungswerte

Page 9: Fernuniversität in Hagen Seminar 01912 im Sommersemester ...dna.fernuni-hagen.de/Lehre-offen/Seminare/1912-SS05/Vortraege/01… · •Intrusion Detection •Auslastungsdaten (Performance-Management)

Torben Schrader

Beispiele Netzwerkanalyse (Szenarien)Rechenzentrumentfernter Standort

Provider

WAN

Netzwerk-Management /Netflow Server

Sniffertransportabel

Sniffertransportabel

Syslog/SNMPCollector

Syslog/SNMPServer

Provider

Page 10: Fernuniversität in Hagen Seminar 01912 im Sommersemester ...dna.fernuni-hagen.de/Lehre-offen/Seminare/1912-SS05/Vortraege/01… · •Intrusion Detection •Auslastungsdaten (Performance-Management)

Torben Schrader

Beispiele Netzwerkanalyse (Vorbemerkung)Datenformat z.B. IP über ATM:

112121ATM Zellenmit VCI

9180 byte9180 byte AAL-5

Aufteilung IP Paket auf ATM Zelle gem. RFC1626

IP-PaketFragment 1Fragment 0

Unfragmentiert

Page 11: Fernuniversität in Hagen Seminar 01912 im Sommersemester ...dna.fernuni-hagen.de/Lehre-offen/Seminare/1912-SS05/Vortraege/01… · •Intrusion Detection •Auslastungsdaten (Performance-Management)

Torben Schrader

Beispiele Netzwerkanalyse (Konventionell)Problem : Datenimport in eine SQL Datenbank

• De-Facto Standard Ethereal unterstütztkeine direkte Datenübernahme in Datenbank

• Alternative: Kommerzielle Programme, Einzelfallentscheidung• Eigenentwicklung: Datenübernahme=Unterbrechung der Datenaufnahme

• Der Lohn: SQL Abfragen bieten erhöhte Flexibilität

Page 12: Fernuniversität in Hagen Seminar 01912 im Sommersemester ...dna.fernuni-hagen.de/Lehre-offen/Seminare/1912-SS05/Vortraege/01… · •Intrusion Detection •Auslastungsdaten (Performance-Management)

Torben Schrader

Beispiele Netzwerkanalyse (SQL)

1. Filtern von ICMP Datenverkehr aus mehreren ATM Verbindungen

2. Fragmentierte IP-Pakete dürfen nur einmal gezählt werden

SELECT ATM.VCI, COUNT(ATM.IP_Identifier), ATM.ICMP FROM ATMGROUP BY ATM.VCI, ATM.IP_IdentifierHAVING (((ATM.VCI)<>42) AND (ATM.ICMP)=True));

Annahme: AAL-5 Rahmen eindeutig unterscheidbar & bereits zusammengesetzt

Page 13: Fernuniversität in Hagen Seminar 01912 im Sommersemester ...dna.fernuni-hagen.de/Lehre-offen/Seminare/1912-SS05/Vortraege/01… · •Intrusion Detection •Auslastungsdaten (Performance-Management)

Torben Schrader

Beispiel Netzwerkanalyse Tribeca

TapeAtm Trace

F ileres1

F ileRes2

stream_qual {{NOT s1.vci.eq 42}} p1stream_demux {p1.atm.vci} p2stream_proj {{p2.assemble ip}} p3stream_mux p3 p4stream window w1 on p4defined by {p4.ts.interval 0.005} is fixedstream_agg{w1.count w1.length.mean} r2

Abfrage filtert durchschnittliche IP-Paketlänge aus einem ATM-Datenstrom:

entnommen aus[1]

Page 14: Fernuniversität in Hagen Seminar 01912 im Sommersemester ...dna.fernuni-hagen.de/Lehre-offen/Seminare/1912-SS05/Vortraege/01… · •Intrusion Detection •Auslastungsdaten (Performance-Management)

Torben Schrader

Beispiel Netzwerkanalyse Gigascope

Skizze angelehnt an [2] S. 15

LFTA

LFTA

HFTA

Anwendung

DB

HFTA

HFTA

Vorverarbeitung /Abfrage

Vorverarbeitung /Abfrage

Eingangsdatenströme

gefilterterDatenstrom

komplexe Abfrage

komplexe Abfrage

Nutzungsmöglichkeitender Abfragen

Page 15: Fernuniversität in Hagen Seminar 01912 im Sommersemester ...dna.fernuni-hagen.de/Lehre-offen/Seminare/1912-SS05/Vortraege/01… · •Intrusion Detection •Auslastungsdaten (Performance-Management)

Torben Schrader

Beispiel Netzwerkanalyse Gigascope

Abfrage : Toptalker (mögliche Aufteilung durch Gigascope):

LFTA (gelb gefärbter Bereich):DEFINE {query name IPDurchsatz}Select SourceIP, sum(totalLength) as Durchsatz, tb from eth0.TCP Group by time/60 as tb;

HFTA (blau gefärbter Bereich), Abfrage ermittelt die top 20% der Toptalker

DEFINE {query name topTalker;}SELECT *FROM IPDurchsatzWHERE ((Select Count(*) From IPDurchsatz as IP_durchsatz_1

WHERE IP durchsatz 1.durchsatz < IP durchsatz.durchsatz) >= (SELECT 0.80*Count(*) FROM IPDurchsatz));

Page 16: Fernuniversität in Hagen Seminar 01912 im Sommersemester ...dna.fernuni-hagen.de/Lehre-offen/Seminare/1912-SS05/Vortraege/01… · •Intrusion Detection •Auslastungsdaten (Performance-Management)

Torben Schrader

Vergleich Tribeca / Gigascope

Geringe Verbreitung; (Experimentell)

Eingeschränkt –Experimentell

Verbreitung

OC48(2,45Gb/s)OC3 (155Mb/s)Eingabevolumen

Deklarativ – GSQL (Untermenge v. SQL)

Prozedural Abfragesprache

durchgängig stromorientiertdurchgängig stromorientiertCharakteristika

2002; AT&T1997; Bell LabsEntstehung

GigascopeTribeca

Page 17: Fernuniversität in Hagen Seminar 01912 im Sommersemester ...dna.fernuni-hagen.de/Lehre-offen/Seminare/1912-SS05/Vortraege/01… · •Intrusion Detection •Auslastungsdaten (Performance-Management)

Torben Schrader

Vergleich Tribeca / Gigascope (Fortsetzung)

I/O –Zugriffe & Zwischenergebnisgröße:Frühe Selektion; Aufsplittung der Abfragen; Ordnungsattributen; Keine unnötigen Funktionen

I/O Zugriffe & Zwischenergebnisgröße: Einschränkung „gefährlicher“ Operatoren; Keine unnötigen Funktionen

Optimierungen

nur zwei Ströme, „variables“ Fenster = Ordered-Attribute

nur zwei Ströme, festes oder gleitendes Fenster

Besonderheiten Join

Selektion, Projektion,Aggregation, Group-By,Merge, [Join]

Selektion, Projektion,Aggregation,Demultiplex, Multiplex, [Join]

Abfrageoperatoren

GigascopeTribeca

Page 18: Fernuniversität in Hagen Seminar 01912 im Sommersemester ...dna.fernuni-hagen.de/Lehre-offen/Seminare/1912-SS05/Vortraege/01… · •Intrusion Detection •Auslastungsdaten (Performance-Management)

Torben Schrader

Nutzen - ErgebnisseDatenbankentwicklung (Erkenntnisgewinn):

- Optimierungen durch Vereinfachung (keine persistente Speicherung, keine Transaktionaktionskontrolle / Konsistenzprüfung...)

- Aufteilung der Abfrage in Ebenen (Gigascope) = frühzeitige Optimierungen +Angepasste Operatoren, Implementierung für One-Pass Abfragen +Kontinuierliche Abfrageoptimierung <->einmaliger Optimierung /

Batchverarbeitung+ Verzicht auf Genauigkeit

Aber : Kontinuierliches, exponentielles Datenwachstum Tragfähigkeit des Konzeptes? Vergleich L7-Load-Balancer

Page 19: Fernuniversität in Hagen Seminar 01912 im Sommersemester ...dna.fernuni-hagen.de/Lehre-offen/Seminare/1912-SS05/Vortraege/01… · •Intrusion Detection •Auslastungsdaten (Performance-Management)

Torben Schrader

Nutzen - ErgebnisseAnwendungsbezogen (Netzwerkadministrator):

+ Einsparung an Hardware und gute Performanz+ Flexibilisierung der Abfragemöglichkeiten+ Standardisierte und robuste Plattform für Abfrage- Genaue Definition der Daten weiterhin notwendig- Fehlende Standardisierung der Eingabeschnittstelle (LFTA)

? Notwendigkeit? Anwendungsbezogen zu definieren! Medizin - Medici

Page 20: Fernuniversität in Hagen Seminar 01912 im Sommersemester ...dna.fernuni-hagen.de/Lehre-offen/Seminare/1912-SS05/Vortraege/01… · •Intrusion Detection •Auslastungsdaten (Performance-Management)

Torben Schrader

Fragen?

Page 21: Fernuniversität in Hagen Seminar 01912 im Sommersemester ...dna.fernuni-hagen.de/Lehre-offen/Seminare/1912-SS05/Vortraege/01… · •Intrusion Detection •Auslastungsdaten (Performance-Management)

Torben Schrader

Quellenverzeichniss[1] M.Sullivan, A.Heybey:"Tribeca: A System für Managing Large Databases of Network Traffic" in Proceedings of the Usenix Annual Annual Technical Conference, New Orleans 1998