Hashverfahren - ibr.cs.tu-bs.de · PDF file3/42 Hashing Hashfunktionen Kollisionen Ausblick...

1/42
HashingHashfunktionen
KollisionenAusblick
Hashverfahren
Dank an: Beate Bollig, TU Dortmund!
Hashverfahren

2/42
KollisionenAusblick
UberblickAufgabeRealisierung
Hashing
Hashverfahren
AufgabeRealisierung
Hashfunktionen
AnforderungenWahl einer Hashfunktion
Kollisionen
GeburtstagsparadoxonStrategien zur KollisionsbehandlungHashverfahren mit Verkettung der UberlauferOffene Hashverfahren
Ausblick
Universelles Hashing
Hashverfahren

3/42
KollisionenAusblick
Hashing
Aufgabe
Dynamische Verwaltung von Daten, wobei jeder Datensatzeindeutig durch einen Schlussel charakterisiert ist
Viele Anwendungen benotigen nur einfacheDaten-Zugriffsmechanismen (dictionary operations):
Suche nach Datensatz bei gegebenem Schlussel xsearch(x)
Einfugen eines neuen Datensatzes d mit Schlussel xinsert(x, d) (abgekurzt insert(x))
Entfernen eines Datensatzes bei gegebenem Schlussel xdelete(x)
Menge potentieller Schlussel (Universum) kann sehr gro sein!
Hashverfahren

4/42
KollisionenAusblick
Hashing
Hashing
- Menge U potentieller Schlussel sehr gro,aktuelle Schlusselmenge S jeweils nur kleine Teilmenge desUniversums (im allgemeinen S nicht bekannt)
- Idee: durch Berechnung feststellen, wo Datensatz mitSchlussel x gespeichert
- Abspeicherung der Datensatze in einem Array T mit Indizes{0, 1, . . . , m 1}: Hashtabelle
- Hashfunktion h liefert fur jeden Schlussel x U eine Adressein Hashtabelle, d.h. h : U {0, 1, . . . , m 1}.
Hashverfahren

5/42
KollisionenAusblick
Hashing
U
T012
m 1
h
S
Hashverfahren

6/42
KollisionenAusblick
Vorteil von Hashing
Sei n := |S|.
Balancierte Suchbaume (AVL-Baume, B-Baume):dictionary operations Komplexitat O(log n)
Hashing:fur alle Operationen mittlere Komplexitat O(1)
Belegungsfaktor
Quotient := n/m heit Belegungsfaktor oder Auslastungsfaktoreiner Hashtabelle der Groe m.
Mittlerer Aufwand fur dictionary operations als Funktion in abschatzbar Anzahl aktueller Schlussel geht nur indirekt in Aufwand ein
Hashverfahren

7/42
KollisionenAusblick
Hashing
Herausforderung:
Anzahl moglicher Schlussel viel groer als Hashtabelle, also|U | >> m
Hashfunktion muss verschiedene Schlussel x1 und x2 aufgleiche Adresse abbilden.
x1 und x2 beide in aktueller Schlusselmenge Adresskollision
Hashverfahren gegeben durch:
eine Hashtabelle,
eine Hashfunktion, die Universum der moglichen Schlussel aufAdressen einer Hashtabelle abbildet,
eine Strategie zur Auflosung moglicher Adresskollisionen.
Hashverfahren

8/42
KollisionenAusblick
Anforderungen an Hashfunktionen
Gute Hashfunktionen sollten:
surjektiv sein, d.h. den ganzen Wertebereich umfassen,
die zu speichernden Schlussel (moglichst) gleichmaigverteilen, d.h. fur alle Speicherplatze i und j sollte gelten|h1(i)| |h1(j)|,
effizient berechenbar sein.
Voraussetzung:
U = {0, 1, . . . , N 1} und
h : U {0, 1, . . . , m 1}
Haufig: Divisions- oder Kongruenzmethode
h(x) : x mod m |h1(i)| {N/m, N/m}
Hashverfahren

9/42
KollisionenAusblick
Wahl einer Hashfunktion
h(x) : x mod m
Problem: Daten oft nicht gleichverteilt!
Beispiel: Texte in Zahlen ubertragen, oft viele Leerzeichen,bestimmte Worter haufiger etc.
Wichtig: geeignete Wahl von m
m Zweierpotenz: x mod m wahlt nur die letzten log m Bits
m Primzahl: x mod m beeinflusst alle Bits
Beispiel: m = 11 und S = {49, 22, 6, 52, 76, 34, 13, 29}
Hashwerte: h(49) = 49 mod 11 = 5, h(22) = 22 mod 11 = 0,6, 8, 10, 1, 2, 7
Hashverfahren

10/42
KollisionenAusblick
Erinnerung:
Im allgemeinen unvermeidbar, dass Kollisionen auftreten, denn ausN >> m folgt Existenz eines Speicherplatzes i mit|h1(i)| N/m.
Frage:
Sei n := |S|. Wie wahrscheinlich sind Kollisionen bei n

11/42
KollisionenAusblick
Annahme:
Daten unabhangig
Prob(h(x) = j)=1/m
Prob(i-tes Datum kollidiert nicht mit den ersten i 1 Daten, wenn
diese kollisionsfrei sind)= m(i1)mIntuition:
Egal welche Speicherplatze die ersten i 1 Daten belegen,m i + 1 der m Moglichkeiten sind gut.
Prob(n Daten kollisionsfrei) = m1m m2
m mn+1
m
Beispiel: m = 365Prob(23 Daten kollisionsfrei) 0.49Prob(50 Daten kollisionsfrei) 0.03
Hashverfahren

12/42
KollisionenAusblick
Prob(2m1/2 Daten kollisionsfrei) =
m 1
m
m m1/2
m
m 2m1/2 + 1
m
1
(
m m1/2
m
)m1/2
=
(
1 1
m1/2
)m1/2
1
e
Hashing muss mit Kollisionen leben und benotigt Strategien zurKollisionsbehandlung.
Hashverfahren

13/42
KollisionenAusblick
Kollisionsbehandlung
Hashverfahren unterscheiden sich in Strategien zurKollisionsbehandlung:
mittels verketteter Listen:Jede Komponente der Hashtabelle enthalt Zeiger aufUberlaufliste.
mittels offener Adressierung:Im Kollisionsfall nach fester Regel alternativen freien Platz inHashtabelle suchen. Fur jeden Schlussel Reihenfolge, in derSpeicherplatze betrachtet werden, vorgegeben:Sondierungsfolge
Hashverfahren

14/42
KollisionenAusblick
Kollisionsbehandlung
Verschiedene Arten der Kollisionsbehandlung:
mittels verketteter Listen(links)
mittels offener Adressierung(rechts)
Hashverfahren

15/42
KollisionenAusblick
Hashing mit Verkettung
Realisierung:
Jede Komponente der Hashtabelle enthalt Zeiger auf paarweisedisjunkte lineare Listen. Die i-te Liste L(i) enthalt alle Schlusselx S mit h(x) = i.
Vorteil: Alle Operationen werden unterstutzt undn > m moglich (fur n >> m jedoch Rehashing ratsam).
Nachteil: Speicherplatzbedarf fur Zeiger
search(x): Berechne h(x) und suche in Liste L(h(x)).
insert(x) (nach erfolgloser Suche): Berechne h(x) und fuge xin Liste L(h(x)) ein.
delete(x) (nach erfolgreicher Suche): Berechne h(x), suche xin Liste L(h(x)) und entferne x.
Hashverfahren

16/42
KollisionenAusblick
Beispiel Verkettung der Uberlaufer
Beispiel: m = 7 und h(x) = x mod mS = {2, 5, 12, 15, 19, 43, 53}
0 1 2 3 4 5 6
43
2 53 12
5
19
15
Hashverfahren

17/42
KollisionenAusblick
Analyse
Bei zufalligen Daten und ideal streuenden Hashfunktion gilt fur
Xij :=
{1 i-tes Datum kommt in Liste L(j)0 sonst
Prob(Xij = 1) =1m
E(Xij) = 1 1m + 0
m1m =
1m
Xj = X1j + + Xnj zahlt Anzahl Daten in Liste L(j).
E(Xj) = E(X1j + + Xnj) = E(X1j) + + E(Xnj) =nm
Hashverfahren

18/42
KollisionenAusblick
Analyse
Erfolglose Suche in Liste L(j):
Inklusive nil-Zeiger durchschnittlich 1 + nm = 1 + ObjektebetrachtenBeispiel: Fur n 0.95 m, ist dies 1.95.
Erfolgreiche Suche in Liste L(j): der Lange
Jede Position in der Liste hat Wahrscheinlichkeit 1/, also1 (1 + 2 + + ) =
+12 .
Durchschnittliche Listenlange hier: 1 + n1m(Liste enthalt sicher das gesuchte Datum und die anderenn 1 Daten sind zufallig verteilt.)Also erwartete Suchdauer 12(1 +
n1m + 1) = 1 +
n12m 1 +
2
Beispiel: Fur n 0.95 m, ist dies 1.475.
Hashverfahren

19/42
KollisionenAusblick
Hashverfahren mit offener Adressierung
Er

Hashverfahren - ibr.cs.tu-bs.de · PDF file3/42 Hashing Hashfunktionen Kollisionen Ausblick...

Documents

Transcript of Hashverfahren - ibr.cs.tu-bs.de · PDF file3/42 Hashing Hashfunktionen Kollisionen Ausblick...

Vorlesung Datenbanksysteme vom 11.10.2004 Physische Datenorganisation Speicherhierarchie Hintergrundspeicher / RAID B-Bäume Hashing R-Bäume.

Donator-Akzeptor- Prinzip. Aufgabe 1 Aufgabe 2 Aufgabe 3.

Kapitel 7 Physische Datenorganisation Speicherhierarchie Hintergrundspeicher / RAID Speicherstrukturen B-Bäume Hashing R-Bäume.

Hashing - ibr.cs.tu-bs.de12.pdf · 4/33 Hashing Hashfunktionen Kollisionen Ausblick Uberblick¨ Aufgabe Realisierung Hashing Hashing - Menge U potentieller Schl¨ussel sehr groß,

Kapitel 7 Physische Datenorganisation Speicherhierarchie Hintergrundspeicher / RAID B-Bäume Hashing R-Bäume.

Algorithmen und Datenstrukturen 1asv.informatik.uni-leipzig.de/document/file_link/59/ADS2-02.pdf · - Extendible Hashing (Fagin et al., 1978) - Virtual Hashing und Linear Hashing

Hashverfahren und digitale Signaturen Wei Yang Seminar: Sicherheit in vernetzten System Betreuer: Prof. Dr. Roland Wismüller Universität Siegen WS 04/05.

Kryptographie mit Anwendungen - userpage.zedat.fu-berlin.deuserpage.zedat.fu-berlin.de/~ywing/Seminar/Folien.pdf · Kryptographie mit Anwendungen 27 Hashing Geburtstags–Attacke

Vorlesung Informatik 2 Algorithmen und Datenstrukturen (12 Hashverfahren: Allgemeiner Rahmen)

Rückmeldung zur Aufgabe 3 25.6.2004. Themen heute Allgemeine Hinweise zur Arbeitsorganisation Typische Fehler bei Aufgabe 3 Beispiel der Aufgabe 3 – in.

Einführung in die Funktionale Programmierung Blatt 4 · Blatt 4 Aufgabe 1 Aufgabe 2 Aufgabe 3 Aufgabe 1 genStream alpha = let start = drop 1 alpha in start ++ concat [map (x ++)

Hashing - techfak.uni-bielefeld.de · Bielefeld hat ca. 300.000 Einwohner, dann gibt es vielleicht 200.000 Telefonnummern. Davon bestellt jeder fünfte eine Pizza – bleiben 40.000

Vorlesung Informatik 2 Algorithmen und Datenstrukturen (12 Hashverfahren: Allgemeiner Rahmen) Prof. Th. Ottmann.

HASHING’ Kapitel6 - informatik.hs-mannheim.deschramm/ads/files/Kapitel06.pdf · 1 Übersicht 1. Einführung’ 2. Algorithmen’ 3. Eigenschaen’von’ Programmiersprachen’ 4.

Hashing of personally identifiable information is not ... · 1 Hashing of personally identifiable information is not sufficient Matthias Marx, Ephraim Zimmer, Tobias Mueller, Maximilian

1 Vorlesung Informatik 2 Algorithmen und Datenstrukturen (13 – Offenes Hashing) Prof. Th. Ottmann.

Angebot 3 Brezeln für 2 Aufgabe 1: Brezeln kaufen Aufgabe 3: Katzenjammer Klicke auf eine Aufgabe oder auf die Übungen! Aufgabe 2: Luftballone Zu den Übungen.

Efficient Entity Disambiguation via Similarity Hashing

Volleyball · Volleyball Spielabzeichen Unsere Partner: Gefördert durch: Gold Aufgabe 1 „Wandspiel“ Aufgabe 2 „Baggern“ Aufgabe 3 „1 mit 1“ Aufgabe 4

Die Gleichung der Tangentialebene: Aufgaben · Die Gleichung der Tangentialebene: Aufgaben 9-15 Aufgabe 9: Aufgabe 10: Aufgabe 11: Aufgabe 12: Aufgabe 13: Aufgabe 14: Aufgabe 15: