Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for...

264
Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika Das, Phuong Nguyen, Hillol Kargupta (2006) Hendrik Ewerlin TU Dortmund 15.01.2008 Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 1 / 54

Transcript of Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for...

Page 1: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Client-side Web Mining for Community Formation inPeer-To-Peer Environments

Kun Liu, Kanishka Bhaduri, Kamalika Das, Phuong Nguyen, HillolKargupta (2006)

Hendrik Ewerlin

TU Dortmund

15.01.2008

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 1 / 54

Page 2: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

SchnellstartWorum geht’s?

Gegeben

Ein Peer-To-Peer Netzwerk mit irgendeiner Verbindungsstruktur.

Aufgabe

Bilde Communities von Peers, die ahnliche Interessen haben!

Zusatzliche Anforderungen

...ohne dass irgendjemand die Interessen des anderen erfahrt.

...sodass eine hierarchische Struktur entsteht.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 2 / 54

Page 3: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

SchnellstartWorum geht’s?

Gegeben

Ein Peer-To-Peer Netzwerk mit irgendeiner Verbindungsstruktur.

Aufgabe

Bilde Communities von Peers, die ahnliche Interessen haben!

Zusatzliche Anforderungen

...ohne dass irgendjemand die Interessen des anderen erfahrt.

...sodass eine hierarchische Struktur entsteht.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 2 / 54

Page 4: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

SchnellstartWorum geht’s?

Gegeben

Ein Peer-To-Peer Netzwerk mit irgendeiner Verbindungsstruktur.

Aufgabe

Bilde Communities von Peers, die ahnliche Interessen haben!

Zusatzliche Anforderungen

...ohne dass irgendjemand die Interessen des anderen erfahrt.

...sodass eine hierarchische Struktur entsteht.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 2 / 54

Page 5: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

SchnellstartWorum geht’s?

Gegeben

Ein Peer-To-Peer Netzwerk mit irgendeiner Verbindungsstruktur.

Aufgabe

Bilde Communities von Peers, die ahnliche Interessen haben!

Zusatzliche Anforderungen

...ohne dass irgendjemand die Interessen des anderen erfahrt.

...sodass eine hierarchische Struktur entsteht.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 2 / 54

Page 6: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

SchnellstartWorum geht’s?

Gegeben

Ein Peer-To-Peer Netzwerk mit irgendeiner Verbindungsstruktur.

Aufgabe

Bilde Communities von Peers, die ahnliche Interessen haben!

Zusatzliche Anforderungen

...ohne dass irgendjemand die Interessen des anderen erfahrt.

...sodass eine hierarchische Struktur entsteht.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 2 / 54

Page 7: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

SchnellstartWorum geht’s?

Offene Fragen

1 Wieso P2P-Communities?

2 Was soll das heißen -”Ahnliche Interessen“?

3 Wie funktioniert die Formierung der Community?I Geheimhaltung?I Hierarchie?

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 3 / 54

Page 8: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

SchnellstartWorum geht’s?

Offene Fragen

1 Wieso P2P-Communities?

2 Was soll das heißen -”Ahnliche Interessen“?

3 Wie funktioniert die Formierung der Community?I Geheimhaltung?I Hierarchie?

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 3 / 54

Page 9: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

SchnellstartWorum geht’s?

Offene Fragen

1 Wieso P2P-Communities?

2 Was soll das heißen -”Ahnliche Interessen“?

3 Wie funktioniert die Formierung der Community?I Geheimhaltung?I Hierarchie?

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 3 / 54

Page 10: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Ubersicht

1 Peer-To-Peer Netzwerke

2 Verschiedene Ansatze fur P2P-Communities

3 Formierung einer P2P-Community nach Liu et al. (2006)

4 Zusammenfassung

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 4 / 54

Page 11: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Ubersicht

1 Peer-To-Peer Netzwerke

2 Verschiedene Ansatze fur P2P-Communities

3 Formierung einer P2P-Community nach Liu et al. (2006)

4 Zusammenfassung

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 5 / 54

Page 12: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Was ist Peer-To-Peer?

Peer-To-Peer ist ganz sicher nicht...

Client-Server

Klare Aufteilung der Teilnehmer in Clients und Server

Server bietet dem Client einen Dienst an (Asymmetrische Beziehung)

Beispiele: Webserver, Mailserver, Vorlesung, Kaffeeautomat, ...

+: Intuitive Sichtweise, einfache Protokolle

–: Server ist Single Point of Failure und durch DOS-Attackenverwundbar

–: Server wird bei aufwandigen Anwendungen moglicherweise zumBottleneck (Speicher / Traffic / Rechenleistung)

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 6 / 54

Page 13: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Was ist Peer-To-Peer?

Peer-To-Peer ist ganz sicher nicht...

Client-Server

Klare Aufteilung der Teilnehmer in Clients und Server

Server bietet dem Client einen Dienst an (Asymmetrische Beziehung)

Beispiele: Webserver, Mailserver, Vorlesung, Kaffeeautomat, ...

+: Intuitive Sichtweise, einfache Protokolle

–: Server ist Single Point of Failure und durch DOS-Attackenverwundbar

–: Server wird bei aufwandigen Anwendungen moglicherweise zumBottleneck (Speicher / Traffic / Rechenleistung)

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 6 / 54

Page 14: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Was ist Peer-To-Peer?

Peer-To-Peer ist ganz sicher nicht...

Client-Server

Klare Aufteilung der Teilnehmer in Clients und Server

Server bietet dem Client einen Dienst an (Asymmetrische Beziehung)

Beispiele: Webserver, Mailserver, Vorlesung, Kaffeeautomat, ...

+: Intuitive Sichtweise, einfache Protokolle

–: Server ist Single Point of Failure und durch DOS-Attackenverwundbar

–: Server wird bei aufwandigen Anwendungen moglicherweise zumBottleneck (Speicher / Traffic / Rechenleistung)

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 6 / 54

Page 15: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Was ist Peer-To-Peer?

Peer-To-Peer ist ganz sicher nicht...

Client-Server

Klare Aufteilung der Teilnehmer in Clients und Server

Server bietet dem Client einen Dienst an (Asymmetrische Beziehung)

Beispiele: Webserver, Mailserver, Vorlesung, Kaffeeautomat, ...

+: Intuitive Sichtweise, einfache Protokolle

–: Server ist Single Point of Failure und durch DOS-Attackenverwundbar

–: Server wird bei aufwandigen Anwendungen moglicherweise zumBottleneck (Speicher / Traffic / Rechenleistung)

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 6 / 54

Page 16: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Was ist Peer-To-Peer?

Peer-To-Peer ist ganz sicher nicht...

Client-Server

Klare Aufteilung der Teilnehmer in Clients und Server

Server bietet dem Client einen Dienst an (Asymmetrische Beziehung)

Beispiele: Webserver, Mailserver, Vorlesung, Kaffeeautomat, ...

+: Intuitive Sichtweise, einfache Protokolle

–: Server ist Single Point of Failure und durch DOS-Attackenverwundbar

–: Server wird bei aufwandigen Anwendungen moglicherweise zumBottleneck (Speicher / Traffic / Rechenleistung)

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 6 / 54

Page 17: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Was ist Peer-To-Peer?

Peer-To-Peer ist ganz sicher nicht...

Client-Server

Klare Aufteilung der Teilnehmer in Clients und Server

Server bietet dem Client einen Dienst an (Asymmetrische Beziehung)

Beispiele: Webserver, Mailserver, Vorlesung, Kaffeeautomat, ...

+: Intuitive Sichtweise, einfache Protokolle

–: Server ist Single Point of Failure und durch DOS-Attackenverwundbar

–: Server wird bei aufwandigen Anwendungen moglicherweise zumBottleneck (Speicher / Traffic / Rechenleistung)

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 6 / 54

Page 18: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Was ist Peer-To-Peer?

Peer-To-Peer ist ganz sicher nicht...

Client-Server

Klare Aufteilung der Teilnehmer in Clients und Server

Server bietet dem Client einen Dienst an (Asymmetrische Beziehung)

Beispiele: Webserver, Mailserver, Vorlesung, Kaffeeautomat, ...

+: Intuitive Sichtweise, einfache Protokolle

–: Server ist Single Point of Failure und durch DOS-Attackenverwundbar

–: Server wird bei aufwandigen Anwendungen moglicherweise zumBottleneck (Speicher / Traffic / Rechenleistung)

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 6 / 54

Page 19: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Was ist Peer-To-Peer?

Peer-To-Peer (P2P)

Beziehung zwischen gleichartigen Nutzern (Peers)

Dezentrale und selbstorganisierende Netzwerke mit Overlay Routing

Hohe Fluktuation, keine garantierte Verfugbarkeit

+: Gigantische Mengen an verfugbaren Ressourcen(Speicher / Traffic / Rechenleistung)

+: Lastverteilung, kein Single Point of Failure, keine Bottlenecks

–: Aufwandige Protokolle und Algorithmen

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 7 / 54

Page 20: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Was ist Peer-To-Peer?

Peer-To-Peer (P2P)

Beziehung zwischen gleichartigen Nutzern (Peers)

Dezentrale und selbstorganisierende Netzwerke mit Overlay Routing

Hohe Fluktuation, keine garantierte Verfugbarkeit

+: Gigantische Mengen an verfugbaren Ressourcen(Speicher / Traffic / Rechenleistung)

+: Lastverteilung, kein Single Point of Failure, keine Bottlenecks

–: Aufwandige Protokolle und Algorithmen

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 7 / 54

Page 21: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Was ist Peer-To-Peer?

Peer-To-Peer (P2P)

Beziehung zwischen gleichartigen Nutzern (Peers)

Dezentrale und selbstorganisierende Netzwerke mit Overlay Routing

Hohe Fluktuation, keine garantierte Verfugbarkeit

+: Gigantische Mengen an verfugbaren Ressourcen(Speicher / Traffic / Rechenleistung)

+: Lastverteilung, kein Single Point of Failure, keine Bottlenecks

–: Aufwandige Protokolle und Algorithmen

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 7 / 54

Page 22: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Was ist Peer-To-Peer?

Peer-To-Peer (P2P)

Beziehung zwischen gleichartigen Nutzern (Peers)

Dezentrale und selbstorganisierende Netzwerke mit Overlay Routing

Hohe Fluktuation, keine garantierte Verfugbarkeit

+: Gigantische Mengen an verfugbaren Ressourcen(Speicher / Traffic / Rechenleistung)

+: Lastverteilung, kein Single Point of Failure, keine Bottlenecks

–: Aufwandige Protokolle und Algorithmen

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 7 / 54

Page 23: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Was ist Peer-To-Peer?

Peer-To-Peer (P2P)

Beziehung zwischen gleichartigen Nutzern (Peers)

Dezentrale und selbstorganisierende Netzwerke mit Overlay Routing

Hohe Fluktuation, keine garantierte Verfugbarkeit

+: Gigantische Mengen an verfugbaren Ressourcen(Speicher / Traffic / Rechenleistung)

+: Lastverteilung, kein Single Point of Failure, keine Bottlenecks

–: Aufwandige Protokolle und Algorithmen

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 7 / 54

Page 24: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Was ist Peer-To-Peer?

Peer-To-Peer (P2P)

Beziehung zwischen gleichartigen Nutzern (Peers)

Dezentrale und selbstorganisierende Netzwerke mit Overlay Routing

Hohe Fluktuation, keine garantierte Verfugbarkeit

+: Gigantische Mengen an verfugbaren Ressourcen(Speicher / Traffic / Rechenleistung)

+: Lastverteilung, kein Single Point of Failure, keine Bottlenecks

–: Aufwandige Protokolle und Algorithmen

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 7 / 54

Page 25: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Klassische P2P-Netzwerke

Klassische P2P-Netzwerke

1 Pseudo-P2P

I Napstar (1999)I Zentralisierte Indexverzeichnisse

2 Chaos-P2P

I Gnutella (2000)I Network Flooding

3 Strukturiertes P2P

I CAN, Chord, Pastry, Distance-Halving, Skip-Net, ... (ab 2001)I Document Routing; Auffinden in O(log n) Hops

Mehr dazu: Online-Vorlesung”Peer-To-Peer Netzwerke“, Prof. Christian

Schindelhauer, Uni Freiburg (SS 2006)

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 8 / 54

Page 26: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Klassische P2P-Netzwerke

Klassische P2P-Netzwerke1 Pseudo-P2P

I Napstar (1999)I Zentralisierte Indexverzeichnisse

2 Chaos-P2P

I Gnutella (2000)I Network Flooding

3 Strukturiertes P2P

I CAN, Chord, Pastry, Distance-Halving, Skip-Net, ... (ab 2001)I Document Routing; Auffinden in O(log n) Hops

Mehr dazu: Online-Vorlesung”Peer-To-Peer Netzwerke“, Prof. Christian

Schindelhauer, Uni Freiburg (SS 2006)

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 8 / 54

Page 27: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Klassische P2P-Netzwerke

Klassische P2P-Netzwerke1 Pseudo-P2P

I Napstar (1999)

I Zentralisierte Indexverzeichnisse

2 Chaos-P2P

I Gnutella (2000)I Network Flooding

3 Strukturiertes P2P

I CAN, Chord, Pastry, Distance-Halving, Skip-Net, ... (ab 2001)I Document Routing; Auffinden in O(log n) Hops

Mehr dazu: Online-Vorlesung”Peer-To-Peer Netzwerke“, Prof. Christian

Schindelhauer, Uni Freiburg (SS 2006)

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 8 / 54

Page 28: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Klassische P2P-Netzwerke

Klassische P2P-Netzwerke1 Pseudo-P2P

I Napstar (1999)I Zentralisierte Indexverzeichnisse

2 Chaos-P2P

I Gnutella (2000)I Network Flooding

3 Strukturiertes P2P

I CAN, Chord, Pastry, Distance-Halving, Skip-Net, ... (ab 2001)I Document Routing; Auffinden in O(log n) Hops

Mehr dazu: Online-Vorlesung”Peer-To-Peer Netzwerke“, Prof. Christian

Schindelhauer, Uni Freiburg (SS 2006)

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 8 / 54

Page 29: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Klassische P2P-Netzwerke

Klassische P2P-Netzwerke1 Pseudo-P2P

I Napstar (1999)I Zentralisierte Indexverzeichnisse

2 Chaos-P2P

I Gnutella (2000)I Network Flooding

3 Strukturiertes P2P

I CAN, Chord, Pastry, Distance-Halving, Skip-Net, ... (ab 2001)I Document Routing; Auffinden in O(log n) Hops

Mehr dazu: Online-Vorlesung”Peer-To-Peer Netzwerke“, Prof. Christian

Schindelhauer, Uni Freiburg (SS 2006)

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 8 / 54

Page 30: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Klassische P2P-Netzwerke

Klassische P2P-Netzwerke1 Pseudo-P2P

I Napstar (1999)I Zentralisierte Indexverzeichnisse

2 Chaos-P2PI Gnutella (2000)

I Network Flooding

3 Strukturiertes P2P

I CAN, Chord, Pastry, Distance-Halving, Skip-Net, ... (ab 2001)I Document Routing; Auffinden in O(log n) Hops

Mehr dazu: Online-Vorlesung”Peer-To-Peer Netzwerke“, Prof. Christian

Schindelhauer, Uni Freiburg (SS 2006)

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 8 / 54

Page 31: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Klassische P2P-Netzwerke

Klassische P2P-Netzwerke1 Pseudo-P2P

I Napstar (1999)I Zentralisierte Indexverzeichnisse

2 Chaos-P2PI Gnutella (2000)I Network Flooding

3 Strukturiertes P2P

I CAN, Chord, Pastry, Distance-Halving, Skip-Net, ... (ab 2001)I Document Routing; Auffinden in O(log n) Hops

Mehr dazu: Online-Vorlesung”Peer-To-Peer Netzwerke“, Prof. Christian

Schindelhauer, Uni Freiburg (SS 2006)

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 8 / 54

Page 32: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Klassische P2P-Netzwerke

Klassische P2P-Netzwerke1 Pseudo-P2P

I Napstar (1999)I Zentralisierte Indexverzeichnisse

2 Chaos-P2PI Gnutella (2000)I Network Flooding

3 Strukturiertes P2P

I CAN, Chord, Pastry, Distance-Halving, Skip-Net, ... (ab 2001)I Document Routing; Auffinden in O(log n) Hops

Mehr dazu: Online-Vorlesung”Peer-To-Peer Netzwerke“, Prof. Christian

Schindelhauer, Uni Freiburg (SS 2006)

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 8 / 54

Page 33: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Klassische P2P-Netzwerke

Klassische P2P-Netzwerke1 Pseudo-P2P

I Napstar (1999)I Zentralisierte Indexverzeichnisse

2 Chaos-P2PI Gnutella (2000)I Network Flooding

3 Strukturiertes P2PI CAN, Chord, Pastry, Distance-Halving, Skip-Net, ... (ab 2001)

I Document Routing; Auffinden in O(log n) Hops

Mehr dazu: Online-Vorlesung”Peer-To-Peer Netzwerke“, Prof. Christian

Schindelhauer, Uni Freiburg (SS 2006)

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 8 / 54

Page 34: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Klassische P2P-Netzwerke

Klassische P2P-Netzwerke1 Pseudo-P2P

I Napstar (1999)I Zentralisierte Indexverzeichnisse

2 Chaos-P2PI Gnutella (2000)I Network Flooding

3 Strukturiertes P2PI CAN, Chord, Pastry, Distance-Halving, Skip-Net, ... (ab 2001)I Document Routing; Auffinden in O(log n) Hops

Mehr dazu: Online-Vorlesung”Peer-To-Peer Netzwerke“, Prof. Christian

Schindelhauer, Uni Freiburg (SS 2006)

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 8 / 54

Page 35: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Wieso Communities?

Nachteil

Peers haben von sich aus schon spezialisierte Interessen undInformationsbedurfnisse.

Diese werden in klassischen Ansatzen nicht genug berucksichtigt.

Idee zur Verbesserung: P2P-Communities

Peers mit Gemeinsamkeiten gruppieren

Spezielle Anfragen zuerst an die Community stellen

+: Schnelleres Auffinden von gesuchten Inhalten

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 9 / 54

Page 36: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Wieso Communities?

Nachteil

Peers haben von sich aus schon spezialisierte Interessen undInformationsbedurfnisse.

Diese werden in klassischen Ansatzen nicht genug berucksichtigt.

Idee zur Verbesserung: P2P-Communities

Peers mit Gemeinsamkeiten gruppieren

Spezielle Anfragen zuerst an die Community stellen

+: Schnelleres Auffinden von gesuchten Inhalten

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 9 / 54

Page 37: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Wieso Communities?

Nachteil

Peers haben von sich aus schon spezialisierte Interessen undInformationsbedurfnisse.

Diese werden in klassischen Ansatzen nicht genug berucksichtigt.

Idee zur Verbesserung: P2P-Communities

Peers mit Gemeinsamkeiten gruppieren

Spezielle Anfragen zuerst an die Community stellen

+: Schnelleres Auffinden von gesuchten Inhalten

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 9 / 54

Page 38: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Wieso Communities?

Nachteil

Peers haben von sich aus schon spezialisierte Interessen undInformationsbedurfnisse.

Diese werden in klassischen Ansatzen nicht genug berucksichtigt.

Idee zur Verbesserung: P2P-Communities

Peers mit Gemeinsamkeiten gruppieren

Spezielle Anfragen zuerst an die Community stellen

+: Schnelleres Auffinden von gesuchten Inhalten

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 9 / 54

Page 39: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Wieso Communities?

Nachteil

Peers haben von sich aus schon spezialisierte Interessen undInformationsbedurfnisse.

Diese werden in klassischen Ansatzen nicht genug berucksichtigt.

Idee zur Verbesserung: P2P-Communities

Peers mit Gemeinsamkeiten gruppieren

Spezielle Anfragen zuerst an die Community stellen

+: Schnelleres Auffinden von gesuchten Inhalten

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 9 / 54

Page 40: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Wieso Communities?

Nachteil

Peers haben von sich aus schon spezialisierte Interessen undInformationsbedurfnisse.

Diese werden in klassischen Ansatzen nicht genug berucksichtigt.

Idee zur Verbesserung: P2P-Communities

Peers mit Gemeinsamkeiten gruppieren

Spezielle Anfragen zuerst an die Community stellen

+: Schnelleres Auffinden von gesuchten Inhalten

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 9 / 54

Page 41: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Also:

Peers mit Gemeinsamkeiten gruppieren!

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 10 / 54

Page 42: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Ubersicht

1 Peer-To-Peer Netzwerke

2 Verschiedene Ansatze fur P2P-Communities

3 Formierung einer P2P-Community nach Liu et al. (2006)

4 Zusammenfassung

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 11 / 54

Page 43: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Interessen und Ahnlichkeit

Interessen konnen...

explizit erfragt werden

implizit ermittelt werden (z.B: durch Betrachtung angefragterInternetseiten)

Je nach Anwendungsfall sind verschiedene Reprasentationen denkbar.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 12 / 54

Page 44: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Interessen und Ahnlichkeit

Interessen konnen...

explizit erfragt werden

implizit ermittelt werden (z.B: durch Betrachtung angefragterInternetseiten)

Je nach Anwendungsfall sind verschiedene Reprasentationen denkbar.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 12 / 54

Page 45: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Interessen und Ahnlichkeit

Interessen konnen...

explizit erfragt werden

implizit ermittelt werden (z.B: durch Betrachtung angefragterInternetseiten)

Je nach Anwendungsfall sind verschiedene Reprasentationen denkbar.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 12 / 54

Page 46: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Ansatze fur P2P-Communities

Ansatze fur P2P-Communities

1 LinkanalyseI

”Self-Organization and Identification of Web Communities“,

G.W. Flake, S. Lawrence, C. Lee Giles, Frans M. Coetzee (2002)

2 VertrauenI

”Trust-based Community Formation in Peer-To-Peer File Sharing

Networks“, Yao Wang (2004)

3 OntologieuberdeckungI

”Semantic self-formation of communities of peers“, S. Castano, S.

Montanelli (2005)

4 AttributahnlichkeitI

”Efficient discovery of implicitly formed P2P-Communities“, M.S.

Khambatti, K.D. Ryu, P. Dasgupta (2002)

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 13 / 54

Page 47: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Ansatze fur P2P-Communities

Ansatze fur P2P-Communities1 Linkanalyse

I”Self-Organization and Identification of Web Communities“,

G.W. Flake, S. Lawrence, C. Lee Giles, Frans M. Coetzee (2002)

2 VertrauenI

”Trust-based Community Formation in Peer-To-Peer File Sharing

Networks“, Yao Wang (2004)

3 OntologieuberdeckungI

”Semantic self-formation of communities of peers“, S. Castano, S.

Montanelli (2005)

4 AttributahnlichkeitI

”Efficient discovery of implicitly formed P2P-Communities“, M.S.

Khambatti, K.D. Ryu, P. Dasgupta (2002)

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 13 / 54

Page 48: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Ansatze fur P2P-Communities

Ansatze fur P2P-Communities1 Linkanalyse

I”Self-Organization and Identification of Web Communities“,

G.W. Flake, S. Lawrence, C. Lee Giles, Frans M. Coetzee (2002)

2 VertrauenI

”Trust-based Community Formation in Peer-To-Peer File Sharing

Networks“, Yao Wang (2004)

3 OntologieuberdeckungI

”Semantic self-formation of communities of peers“, S. Castano, S.

Montanelli (2005)

4 AttributahnlichkeitI

”Efficient discovery of implicitly formed P2P-Communities“, M.S.

Khambatti, K.D. Ryu, P. Dasgupta (2002)

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 13 / 54

Page 49: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Ansatze fur P2P-Communities

Ansatze fur P2P-Communities1 Linkanalyse

I”Self-Organization and Identification of Web Communities“,

G.W. Flake, S. Lawrence, C. Lee Giles, Frans M. Coetzee (2002)

2 VertrauenI

”Trust-based Community Formation in Peer-To-Peer File Sharing

Networks“, Yao Wang (2004)

3 OntologieuberdeckungI

”Semantic self-formation of communities of peers“, S. Castano, S.

Montanelli (2005)

4 AttributahnlichkeitI

”Efficient discovery of implicitly formed P2P-Communities“, M.S.

Khambatti, K.D. Ryu, P. Dasgupta (2002)

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 13 / 54

Page 50: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Ansatze fur P2P-Communities

Ansatze fur P2P-Communities1 Linkanalyse

I”Self-Organization and Identification of Web Communities“,

G.W. Flake, S. Lawrence, C. Lee Giles, Frans M. Coetzee (2002)

2 VertrauenI

”Trust-based Community Formation in Peer-To-Peer File Sharing

Networks“, Yao Wang (2004)

3 OntologieuberdeckungI

”Semantic self-formation of communities of peers“, S. Castano, S.

Montanelli (2005)

4 AttributahnlichkeitI

”Efficient discovery of implicitly formed P2P-Communities“, M.S.

Khambatti, K.D. Ryu, P. Dasgupta (2002)

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 13 / 54

Page 51: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Linkanalyse

Linkanalyse

Betrachtung von Peers und deren Links untereinander

Community = Teilmenge der Peers, sodass fur jedes Mitglied gilt: DieMehrzahl seiner Links fuhrt zu Mitgliedern

Identifikation ist fur gegebene Startknoten durch einen einfachenMax-Flow-Algorithmus moglich.

+: Vollstandig unabhangig von Inhalt

–: Erfordert Offenlegung der Links

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 14 / 54

Page 52: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Linkanalyse

Linkanalyse

Betrachtung von Peers und deren Links untereinander

Community = Teilmenge der Peers, sodass fur jedes Mitglied gilt: DieMehrzahl seiner Links fuhrt zu Mitgliedern

Identifikation ist fur gegebene Startknoten durch einen einfachenMax-Flow-Algorithmus moglich.

+: Vollstandig unabhangig von Inhalt

–: Erfordert Offenlegung der Links

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 14 / 54

Page 53: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Linkanalyse

Linkanalyse

Betrachtung von Peers und deren Links untereinander

Community = Teilmenge der Peers, sodass fur jedes Mitglied gilt: DieMehrzahl seiner Links fuhrt zu Mitgliedern

Identifikation ist fur gegebene Startknoten durch einen einfachenMax-Flow-Algorithmus moglich.

+: Vollstandig unabhangig von Inhalt

–: Erfordert Offenlegung der Links

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 14 / 54

Page 54: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Linkanalyse

Linkanalyse

Betrachtung von Peers und deren Links untereinander

Community = Teilmenge der Peers, sodass fur jedes Mitglied gilt: DieMehrzahl seiner Links fuhrt zu Mitgliedern

Identifikation ist fur gegebene Startknoten durch einen einfachenMax-Flow-Algorithmus moglich.

+: Vollstandig unabhangig von Inhalt

–: Erfordert Offenlegung der Links

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 14 / 54

Page 55: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Linkanalyse

Linkanalyse

Betrachtung von Peers und deren Links untereinander

Community = Teilmenge der Peers, sodass fur jedes Mitglied gilt: DieMehrzahl seiner Links fuhrt zu Mitgliedern

Identifikation ist fur gegebene Startknoten durch einen einfachenMax-Flow-Algorithmus moglich.

+: Vollstandig unabhangig von Inhalt

–: Erfordert Offenlegung der Links

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 14 / 54

Page 56: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Vertrauen & Reputation

Vertrauen & Reputation

Vertrauen =

I Erwartung von A an zukunftiges Verhalten von BI basierend auf vergangenden Erfahrungen mit BI im Bezug auf ein bestimmtes Themengebiet

Reputation = Vertrauen vieler Peers in B im Bezug auf einThemengebiet

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 15 / 54

Page 57: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Vertrauen & Reputation

Vertrauen & Reputation

Vertrauen =I Erwartung von A an zukunftiges Verhalten von B

I basierend auf vergangenden Erfahrungen mit BI im Bezug auf ein bestimmtes Themengebiet

Reputation = Vertrauen vieler Peers in B im Bezug auf einThemengebiet

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 15 / 54

Page 58: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Vertrauen & Reputation

Vertrauen & Reputation

Vertrauen =I Erwartung von A an zukunftiges Verhalten von BI basierend auf vergangenden Erfahrungen mit B

I im Bezug auf ein bestimmtes Themengebiet

Reputation = Vertrauen vieler Peers in B im Bezug auf einThemengebiet

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 15 / 54

Page 59: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Vertrauen & Reputation

Vertrauen & Reputation

Vertrauen =I Erwartung von A an zukunftiges Verhalten von BI basierend auf vergangenden Erfahrungen mit BI im Bezug auf ein bestimmtes Themengebiet

Reputation = Vertrauen vieler Peers in B im Bezug auf einThemengebiet

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 15 / 54

Page 60: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Vertrauen & Reputation

Vertrauen & Reputation

Vertrauen =I Erwartung von A an zukunftiges Verhalten von BI basierend auf vergangenden Erfahrungen mit BI im Bezug auf ein bestimmtes Themengebiet

Reputation = Vertrauen vieler Peers in B im Bezug auf einThemengebiet

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 15 / 54

Page 61: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Vertrauen & Reputation

Trust-based Routing

Problem bei Network Flooding: Man flutet auch Bereiche desNetzwerkes, wo die Peers keine Ahnung vom Thema haben.⇒ großer Aufwand

Schlauer ware: Nur die Bereiche fluten, wo die Peers Ahnung haben.

Algorithmische Umsetzung:

I Antworten auf Suchanfragen werden evaluiert:I Gute Antworten wecken Vertrauen; schlechte schmalern esI Beim nachsten Mal fragt man zuerst die Peers, denen man vertrautI Nur wenn das Suchbedurfnis nicht gestillt ist, fahrt man fort

+: Enorme Verringerung der Anfragekomplexitat

+: Tiefere Suche moglich

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 16 / 54

Page 62: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Vertrauen & Reputation

Trust-based Routing

Problem bei Network Flooding: Man flutet auch Bereiche desNetzwerkes, wo die Peers keine Ahnung vom Thema haben.⇒ großer Aufwand

Schlauer ware: Nur die Bereiche fluten, wo die Peers Ahnung haben.

Algorithmische Umsetzung:

I Antworten auf Suchanfragen werden evaluiert:I Gute Antworten wecken Vertrauen; schlechte schmalern esI Beim nachsten Mal fragt man zuerst die Peers, denen man vertrautI Nur wenn das Suchbedurfnis nicht gestillt ist, fahrt man fort

+: Enorme Verringerung der Anfragekomplexitat

+: Tiefere Suche moglich

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 16 / 54

Page 63: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Vertrauen & Reputation

Trust-based Routing

Problem bei Network Flooding: Man flutet auch Bereiche desNetzwerkes, wo die Peers keine Ahnung vom Thema haben.⇒ großer Aufwand

Schlauer ware: Nur die Bereiche fluten, wo die Peers Ahnung haben.

Algorithmische Umsetzung:

I Antworten auf Suchanfragen werden evaluiert:I Gute Antworten wecken Vertrauen; schlechte schmalern esI Beim nachsten Mal fragt man zuerst die Peers, denen man vertrautI Nur wenn das Suchbedurfnis nicht gestillt ist, fahrt man fort

+: Enorme Verringerung der Anfragekomplexitat

+: Tiefere Suche moglich

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 16 / 54

Page 64: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Vertrauen & Reputation

Trust-based Routing

Problem bei Network Flooding: Man flutet auch Bereiche desNetzwerkes, wo die Peers keine Ahnung vom Thema haben.⇒ großer Aufwand

Schlauer ware: Nur die Bereiche fluten, wo die Peers Ahnung haben.

Algorithmische Umsetzung:I Antworten auf Suchanfragen werden evaluiert:

I Gute Antworten wecken Vertrauen; schlechte schmalern esI Beim nachsten Mal fragt man zuerst die Peers, denen man vertrautI Nur wenn das Suchbedurfnis nicht gestillt ist, fahrt man fort

+: Enorme Verringerung der Anfragekomplexitat

+: Tiefere Suche moglich

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 16 / 54

Page 65: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Vertrauen & Reputation

Trust-based Routing

Problem bei Network Flooding: Man flutet auch Bereiche desNetzwerkes, wo die Peers keine Ahnung vom Thema haben.⇒ großer Aufwand

Schlauer ware: Nur die Bereiche fluten, wo die Peers Ahnung haben.

Algorithmische Umsetzung:I Antworten auf Suchanfragen werden evaluiert:I Gute Antworten wecken Vertrauen; schlechte schmalern es

I Beim nachsten Mal fragt man zuerst die Peers, denen man vertrautI Nur wenn das Suchbedurfnis nicht gestillt ist, fahrt man fort

+: Enorme Verringerung der Anfragekomplexitat

+: Tiefere Suche moglich

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 16 / 54

Page 66: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Vertrauen & Reputation

Trust-based Routing

Problem bei Network Flooding: Man flutet auch Bereiche desNetzwerkes, wo die Peers keine Ahnung vom Thema haben.⇒ großer Aufwand

Schlauer ware: Nur die Bereiche fluten, wo die Peers Ahnung haben.

Algorithmische Umsetzung:I Antworten auf Suchanfragen werden evaluiert:I Gute Antworten wecken Vertrauen; schlechte schmalern esI Beim nachsten Mal fragt man zuerst die Peers, denen man vertraut

I Nur wenn das Suchbedurfnis nicht gestillt ist, fahrt man fort

+: Enorme Verringerung der Anfragekomplexitat

+: Tiefere Suche moglich

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 16 / 54

Page 67: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Vertrauen & Reputation

Trust-based Routing

Problem bei Network Flooding: Man flutet auch Bereiche desNetzwerkes, wo die Peers keine Ahnung vom Thema haben.⇒ großer Aufwand

Schlauer ware: Nur die Bereiche fluten, wo die Peers Ahnung haben.

Algorithmische Umsetzung:I Antworten auf Suchanfragen werden evaluiert:I Gute Antworten wecken Vertrauen; schlechte schmalern esI Beim nachsten Mal fragt man zuerst die Peers, denen man vertrautI Nur wenn das Suchbedurfnis nicht gestillt ist, fahrt man fort

+: Enorme Verringerung der Anfragekomplexitat

+: Tiefere Suche moglich

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 16 / 54

Page 68: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Vertrauen & Reputation

Trust-based Routing

Problem bei Network Flooding: Man flutet auch Bereiche desNetzwerkes, wo die Peers keine Ahnung vom Thema haben.⇒ großer Aufwand

Schlauer ware: Nur die Bereiche fluten, wo die Peers Ahnung haben.

Algorithmische Umsetzung:I Antworten auf Suchanfragen werden evaluiert:I Gute Antworten wecken Vertrauen; schlechte schmalern esI Beim nachsten Mal fragt man zuerst die Peers, denen man vertrautI Nur wenn das Suchbedurfnis nicht gestillt ist, fahrt man fort

+: Enorme Verringerung der Anfragekomplexitat

+: Tiefere Suche moglich

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 16 / 54

Page 69: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Vertrauen & Reputation

Trust-based Routing

Problem bei Network Flooding: Man flutet auch Bereiche desNetzwerkes, wo die Peers keine Ahnung vom Thema haben.⇒ großer Aufwand

Schlauer ware: Nur die Bereiche fluten, wo die Peers Ahnung haben.

Algorithmische Umsetzung:I Antworten auf Suchanfragen werden evaluiert:I Gute Antworten wecken Vertrauen; schlechte schmalern esI Beim nachsten Mal fragt man zuerst die Peers, denen man vertrautI Nur wenn das Suchbedurfnis nicht gestillt ist, fahrt man fort

+: Enorme Verringerung der Anfragekomplexitat

+: Tiefere Suche moglich

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 16 / 54

Page 70: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Vertrauen & Reputation

Trust-based Communities

In themenbasierten Communities werden Dokumente zentralgesammelt und von Mitgliedern bewertet.

Peers, deren Dokumente gut bewertet wurden, bekommen Vertrauen.

Reputation hilft, auch neue Dokumente der Peers angemesseneinzuordnen.

+: Gute Inhalte werden gefordert.

+: Storenfriede werden isoliert.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 17 / 54

Page 71: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Vertrauen & Reputation

Trust-based Communities

In themenbasierten Communities werden Dokumente zentralgesammelt und von Mitgliedern bewertet.

Peers, deren Dokumente gut bewertet wurden, bekommen Vertrauen.

Reputation hilft, auch neue Dokumente der Peers angemesseneinzuordnen.

+: Gute Inhalte werden gefordert.

+: Storenfriede werden isoliert.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 17 / 54

Page 72: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Vertrauen & Reputation

Trust-based Communities

In themenbasierten Communities werden Dokumente zentralgesammelt und von Mitgliedern bewertet.

Peers, deren Dokumente gut bewertet wurden, bekommen Vertrauen.

Reputation hilft, auch neue Dokumente der Peers angemesseneinzuordnen.

+: Gute Inhalte werden gefordert.

+: Storenfriede werden isoliert.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 17 / 54

Page 73: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Vertrauen & Reputation

Trust-based Communities

In themenbasierten Communities werden Dokumente zentralgesammelt und von Mitgliedern bewertet.

Peers, deren Dokumente gut bewertet wurden, bekommen Vertrauen.

Reputation hilft, auch neue Dokumente der Peers angemesseneinzuordnen.

+: Gute Inhalte werden gefordert.

+: Storenfriede werden isoliert.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 17 / 54

Page 74: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Vertrauen & Reputation

Trust-based Communities

In themenbasierten Communities werden Dokumente zentralgesammelt und von Mitgliedern bewertet.

Peers, deren Dokumente gut bewertet wurden, bekommen Vertrauen.

Reputation hilft, auch neue Dokumente der Peers angemesseneinzuordnen.

+: Gute Inhalte werden gefordert.

+: Storenfriede werden isoliert.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 17 / 54

Page 75: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Ontologieuberdeckung

Ontologieuberdeckung

Interessen liegen als Ontologien vor.

Ein”Semantic Matchmaker“ legt die Ontologien

von Peers ubereinander und vergleicht sie aufAhnlichkeit, indem er

I Synonyme angemessen behandeltI den Pfad der Konzepte als Kontext berucksichtigtI schließlich Schnittmengen aufzeigt

+: Semantisch reiche Profile

–: Ungenau, mogliche Fehleinschatzung

–: Offenlegung von Interessen erforderlich

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 18 / 54

Page 76: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Ontologieuberdeckung

Ontologieuberdeckung

Interessen liegen als Ontologien vor.

Ein”Semantic Matchmaker“ legt die Ontologien

von Peers ubereinander und vergleicht sie aufAhnlichkeit, indem er

I Synonyme angemessen behandeltI den Pfad der Konzepte als Kontext berucksichtigtI schließlich Schnittmengen aufzeigt

+: Semantisch reiche Profile

–: Ungenau, mogliche Fehleinschatzung

–: Offenlegung von Interessen erforderlich

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 18 / 54

Page 77: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Ontologieuberdeckung

Ontologieuberdeckung

Interessen liegen als Ontologien vor.

Ein”Semantic Matchmaker“ legt die Ontologien

von Peers ubereinander und vergleicht sie aufAhnlichkeit

, indem erI Synonyme angemessen behandeltI den Pfad der Konzepte als Kontext berucksichtigtI schließlich Schnittmengen aufzeigt

+: Semantisch reiche Profile

–: Ungenau, mogliche Fehleinschatzung

–: Offenlegung von Interessen erforderlich

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 18 / 54

Page 78: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Ontologieuberdeckung

Ontologieuberdeckung

Interessen liegen als Ontologien vor.

Ein”Semantic Matchmaker“ legt die Ontologien

von Peers ubereinander und vergleicht sie aufAhnlichkeit, indem er

I Synonyme angemessen behandeltI den Pfad der Konzepte als Kontext berucksichtigt

I schließlich Schnittmengen aufzeigt

+: Semantisch reiche Profile

–: Ungenau, mogliche Fehleinschatzung

–: Offenlegung von Interessen erforderlich

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 18 / 54

Page 79: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Ontologieuberdeckung

Ontologieuberdeckung

Interessen liegen als Ontologien vor.

Ein”Semantic Matchmaker“ legt die Ontologien

von Peers ubereinander und vergleicht sie aufAhnlichkeit, indem er

I Synonyme angemessen behandeltI den Pfad der Konzepte als Kontext berucksichtigtI schließlich Schnittmengen aufzeigt

+: Semantisch reiche Profile

–: Ungenau, mogliche Fehleinschatzung

–: Offenlegung von Interessen erforderlich

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 18 / 54

Page 80: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Ontologieuberdeckung

Ontologieuberdeckung

Interessen liegen als Ontologien vor.

Ein”Semantic Matchmaker“ legt die Ontologien

von Peers ubereinander und vergleicht sie aufAhnlichkeit, indem er

I Synonyme angemessen behandeltI den Pfad der Konzepte als Kontext berucksichtigtI schließlich Schnittmengen aufzeigt

+: Semantisch reiche Profile

–: Ungenau, mogliche Fehleinschatzung

–: Offenlegung von Interessen erforderlich

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 18 / 54

Page 81: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Ontologieuberdeckung

Ontologieuberdeckung

Interessen liegen als Ontologien vor.

Ein”Semantic Matchmaker“ legt die Ontologien

von Peers ubereinander und vergleicht sie aufAhnlichkeit, indem er

I Synonyme angemessen behandeltI den Pfad der Konzepte als Kontext berucksichtigtI schließlich Schnittmengen aufzeigt

+: Semantisch reiche Profile

–: Ungenau, mogliche Fehleinschatzung

–: Offenlegung von Interessen erforderlich

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 18 / 54

Page 82: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Ontologieuberdeckung

Ontologieuberdeckung

Interessen liegen als Ontologien vor.

Ein”Semantic Matchmaker“ legt die Ontologien

von Peers ubereinander und vergleicht sie aufAhnlichkeit, indem er

I Synonyme angemessen behandeltI den Pfad der Konzepte als Kontext berucksichtigtI schließlich Schnittmengen aufzeigt

+: Semantisch reiche Profile

–: Ungenau, mogliche Fehleinschatzung

–: Offenlegung von Interessen erforderlich

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 18 / 54

Page 83: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Attributahnlichkeit

Attributahnlichkeit - Mengen

Grundmenge von Attributen A vorgegeben

Interessen sind Teilmengen dieser Grundmenge (Ip ⊆ A)

Ahnlichkeitstest: Schnittmenge der Interessen bilden

+: Einfach

+: Keine Unsicherheit durch vorgegebene Grundmenge

–: Mußig in Verbindung mit Benutzereingabe

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 19 / 54

Page 84: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Attributahnlichkeit

Attributahnlichkeit - Mengen

Grundmenge von Attributen A vorgegeben

Interessen sind Teilmengen dieser Grundmenge (Ip ⊆ A)

Ahnlichkeitstest: Schnittmenge der Interessen bilden

+: Einfach

+: Keine Unsicherheit durch vorgegebene Grundmenge

–: Mußig in Verbindung mit Benutzereingabe

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 19 / 54

Page 85: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Attributahnlichkeit

Attributahnlichkeit - Mengen

Grundmenge von Attributen A vorgegeben

Interessen sind Teilmengen dieser Grundmenge (Ip ⊆ A)

Ahnlichkeitstest: Schnittmenge der Interessen bilden

+: Einfach

+: Keine Unsicherheit durch vorgegebene Grundmenge

–: Mußig in Verbindung mit Benutzereingabe

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 19 / 54

Page 86: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Attributahnlichkeit

Attributahnlichkeit - Mengen

Grundmenge von Attributen A vorgegeben

Interessen sind Teilmengen dieser Grundmenge (Ip ⊆ A)

Ahnlichkeitstest: Schnittmenge der Interessen bilden

+: Einfach

+: Keine Unsicherheit durch vorgegebene Grundmenge

–: Mußig in Verbindung mit Benutzereingabe

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 19 / 54

Page 87: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Attributahnlichkeit

Attributahnlichkeit - Mengen

Grundmenge von Attributen A vorgegeben

Interessen sind Teilmengen dieser Grundmenge (Ip ⊆ A)

Ahnlichkeitstest: Schnittmenge der Interessen bilden

+: Einfach

+: Keine Unsicherheit durch vorgegebene Grundmenge

–: Mußig in Verbindung mit Benutzereingabe

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 19 / 54

Page 88: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Attributahnlichkeit

Attributahnlichkeit - Mengen

Grundmenge von Attributen A vorgegeben

Interessen sind Teilmengen dieser Grundmenge (Ip ⊆ A)

Ahnlichkeitstest: Schnittmenge der Interessen bilden

+: Einfach

+: Keine Unsicherheit durch vorgegebene Grundmenge

–: Mußig in Verbindung mit Benutzereingabe

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 19 / 54

Page 89: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Attributahnlichkeit

Attributahnlichkeit - Vektoren

Grundmenge von Attributen A vorgegeben

Interessen eines Peers sind Vektoren; Komponentenentsprechen den Attributen (Ip : A 7→ Zµ)

+: Gewichtung moglich

Ahnlichkeitsbegriff 1: Abstand im Interessenraum

Ahnlichkeitsbegriff 2: Skalarprodukt

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 20 / 54

Page 90: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Attributahnlichkeit

Attributahnlichkeit - Vektoren

Grundmenge von Attributen A vorgegeben

Interessen eines Peers sind Vektoren; Komponentenentsprechen den Attributen (Ip : A 7→ Zµ)

+: Gewichtung moglich

Ahnlichkeitsbegriff 1: Abstand im Interessenraum

Ahnlichkeitsbegriff 2: Skalarprodukt

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 20 / 54

Page 91: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Attributahnlichkeit

Attributahnlichkeit - Vektoren

Grundmenge von Attributen A vorgegeben

Interessen eines Peers sind Vektoren; Komponentenentsprechen den Attributen (Ip : A 7→ Zµ)

+: Gewichtung moglich

Ahnlichkeitsbegriff 1: Abstand im Interessenraum

Ahnlichkeitsbegriff 2: Skalarprodukt

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 20 / 54

Page 92: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Attributahnlichkeit

Attributahnlichkeit - Vektoren

Grundmenge von Attributen A vorgegeben

Interessen eines Peers sind Vektoren; Komponentenentsprechen den Attributen (Ip : A 7→ Zµ)

+: Gewichtung moglich

Ahnlichkeitsbegriff 1: Abstand im Interessenraum

Ahnlichkeitsbegriff 2: Skalarprodukt

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 20 / 54

Page 93: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Attributahnlichkeit

Attributahnlichkeit - Vektoren

Grundmenge von Attributen A vorgegeben

Interessen eines Peers sind Vektoren; Komponentenentsprechen den Attributen (Ip : A 7→ Zµ)

+: Gewichtung moglich

Ahnlichkeitsbegriff 1: Abstand im Interessenraum

Ahnlichkeitsbegriff 2: Skalarprodukt

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 20 / 54

Page 94: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Attributahnlichkeit

Skalarprodukt

Fur das Skalarprodukt von zwei Vektoren gilt:

~x · ~y =n∑

i=1

xi · yi

~x · ~y = |~x | · |~y | · cos α

α ist der von ~x und ~y eingeschlossene Winkel.Fur normierte Vektoren (|~x | = |~y | = 1) ist α = arccos~x · ~y .⇒ Das Skalarprodukt ist stark mit der Cosinus Ahnlichkeit verwandt.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 21 / 54

Page 95: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Attributahnlichkeit

Skalarprodukt

Fur das Skalarprodukt von zwei Vektoren gilt:

~x · ~y =n∑

i=1

xi · yi

~x · ~y = |~x | · |~y | · cos α

α ist der von ~x und ~y eingeschlossene Winkel.Fur normierte Vektoren (|~x | = |~y | = 1) ist α = arccos~x · ~y .⇒ Das Skalarprodukt ist stark mit der Cosinus Ahnlichkeit verwandt.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 21 / 54

Page 96: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Attributahnlichkeit

Skalarprodukt

Fur das Skalarprodukt von zwei Vektoren gilt:

~x · ~y =n∑

i=1

xi · yi

~x · ~y = |~x | · |~y | · cos α

α ist der von ~x und ~y eingeschlossene Winkel.Fur normierte Vektoren (|~x | = |~y | = 1) ist α = arccos~x · ~y .⇒ Das Skalarprodukt ist stark mit der Cosinus Ahnlichkeit verwandt.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 21 / 54

Page 97: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Attributahnlichkeit

Skalarprodukt

Fur das Skalarprodukt von zwei Vektoren gilt:

~x · ~y =n∑

i=1

xi · yi

~x · ~y = |~x | · |~y | · cos α

α ist der von ~x und ~y eingeschlossene Winkel.

Fur normierte Vektoren (|~x | = |~y | = 1) ist α = arccos~x · ~y .⇒ Das Skalarprodukt ist stark mit der Cosinus Ahnlichkeit verwandt.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 21 / 54

Page 98: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Attributahnlichkeit

Skalarprodukt

Fur das Skalarprodukt von zwei Vektoren gilt:

~x · ~y =n∑

i=1

xi · yi

~x · ~y = |~x | · |~y | · cos α

α ist der von ~x und ~y eingeschlossene Winkel.Fur normierte Vektoren (|~x | = |~y | = 1) ist α = arccos~x · ~y .

⇒ Das Skalarprodukt ist stark mit der Cosinus Ahnlichkeit verwandt.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 21 / 54

Page 99: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Attributahnlichkeit

Skalarprodukt

Fur das Skalarprodukt von zwei Vektoren gilt:

~x · ~y =n∑

i=1

xi · yi

~x · ~y = |~x | · |~y | · cos α

α ist der von ~x und ~y eingeschlossene Winkel.Fur normierte Vektoren (|~x | = |~y | = 1) ist α = arccos~x · ~y .⇒ Das Skalarprodukt ist stark mit der Cosinus Ahnlichkeit verwandt.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 21 / 54

Page 100: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Ubersicht

1 Peer-To-Peer Netzwerke

2 Verschiedene Ansatze fur P2P-Communities

3 Formierung einer P2P-Community nach Liu et al. (2006)

4 Zusammenfassung

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 22 / 54

Page 101: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Formierung der Community

Gegeben

Ein Peer-To-Peer Netzwerk mit irgendeiner Verbindungsstruktur.

Interessensvektoren (Ahnlichkeit: Skalarprodukt)

Aufgabe

Bilde Communities von Peers, die ahnliche Interessen haben!

Zusatzliche Anforderungen

...ohne dass irgendjemand die Interessen des anderen erfahrt.

...sodass eine hierarchische Struktur entsteht.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 23 / 54

Page 102: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Formierung der Community

Gegeben

Ein Peer-To-Peer Netzwerk mit irgendeiner Verbindungsstruktur.

Interessensvektoren (Ahnlichkeit: Skalarprodukt)

Aufgabe

Bilde Communities von Peers, die ahnliche Interessen haben!

Zusatzliche Anforderungen

...ohne dass irgendjemand die Interessen des anderen erfahrt.

...sodass eine hierarchische Struktur entsteht.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 23 / 54

Page 103: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Formierung der Community

Gegeben

Ein Peer-To-Peer Netzwerk mit irgendeiner Verbindungsstruktur.

Interessensvektoren (Ahnlichkeit: Skalarprodukt)

Aufgabe

Bilde Communities von Peers, die ahnliche Interessen haben!

Zusatzliche Anforderungen

...ohne dass irgendjemand die Interessen des anderen erfahrt.

...sodass eine hierarchische Struktur entsteht.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 23 / 54

Page 104: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Formierung der Community

Gegeben

Ein Peer-To-Peer Netzwerk mit irgendeiner Verbindungsstruktur.

Interessensvektoren (Ahnlichkeit: Skalarprodukt)

Aufgabe

Bilde Communities von Peers, die ahnliche Interessen haben!

Zusatzliche Anforderungen

...ohne dass irgendjemand die Interessen des anderen erfahrt.

...sodass eine hierarchische Struktur entsteht.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 23 / 54

Page 105: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Und so geht’s

Und so geht’s

Der Ansatz basiert auf Network Flooding:I Es gibt einen Community Initiator.I Der kontaktiert seine d-Nachbarschaft,I bestimmt alle Ahnlichkeitswerte (Skalarprodukt)I und ladt alle ein, deren Ahnlichkeit großer als eine Grenze G ist.

Also alles ganz einfach!

Die Frage ist nur...

1 Wie bestimmt man unter Geheimhaltung ein Skalarprodukt?

2 Wie ahnlich ist ahnlich genug? G = ...

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 24 / 54

Page 106: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Und so geht’s

Und so geht’s

Der Ansatz basiert auf Network Flooding:

I Es gibt einen Community Initiator.I Der kontaktiert seine d-Nachbarschaft,I bestimmt alle Ahnlichkeitswerte (Skalarprodukt)I und ladt alle ein, deren Ahnlichkeit großer als eine Grenze G ist.

Also alles ganz einfach!

Die Frage ist nur...

1 Wie bestimmt man unter Geheimhaltung ein Skalarprodukt?

2 Wie ahnlich ist ahnlich genug? G = ...

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 24 / 54

Page 107: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Und so geht’s

Und so geht’s

Der Ansatz basiert auf Network Flooding:I Es gibt einen Community Initiator.

I Der kontaktiert seine d-Nachbarschaft,I bestimmt alle Ahnlichkeitswerte (Skalarprodukt)I und ladt alle ein, deren Ahnlichkeit großer als eine Grenze G ist.

Also alles ganz einfach!

Die Frage ist nur...

1 Wie bestimmt man unter Geheimhaltung ein Skalarprodukt?

2 Wie ahnlich ist ahnlich genug? G = ...

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 24 / 54

Page 108: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Und so geht’s

Und so geht’s

Der Ansatz basiert auf Network Flooding:I Es gibt einen Community Initiator.I Der kontaktiert seine d-Nachbarschaft,

I bestimmt alle Ahnlichkeitswerte (Skalarprodukt)I und ladt alle ein, deren Ahnlichkeit großer als eine Grenze G ist.

Also alles ganz einfach!

Die Frage ist nur...

1 Wie bestimmt man unter Geheimhaltung ein Skalarprodukt?

2 Wie ahnlich ist ahnlich genug? G = ...

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 24 / 54

Page 109: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Und so geht’s

Und so geht’s

Der Ansatz basiert auf Network Flooding:I Es gibt einen Community Initiator.I Der kontaktiert seine d-Nachbarschaft,I bestimmt alle Ahnlichkeitswerte (Skalarprodukt)

I und ladt alle ein, deren Ahnlichkeit großer als eine Grenze G ist.

Also alles ganz einfach!

Die Frage ist nur...

1 Wie bestimmt man unter Geheimhaltung ein Skalarprodukt?

2 Wie ahnlich ist ahnlich genug? G = ...

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 24 / 54

Page 110: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Und so geht’s

Und so geht’s

Der Ansatz basiert auf Network Flooding:I Es gibt einen Community Initiator.I Der kontaktiert seine d-Nachbarschaft,I bestimmt alle Ahnlichkeitswerte (Skalarprodukt)I und ladt alle ein, deren Ahnlichkeit großer als eine Grenze G ist.

Also alles ganz einfach!

Die Frage ist nur...

1 Wie bestimmt man unter Geheimhaltung ein Skalarprodukt?

2 Wie ahnlich ist ahnlich genug? G = ...

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 24 / 54

Page 111: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Und so geht’s

Und so geht’s

Der Ansatz basiert auf Network Flooding:I Es gibt einen Community Initiator.I Der kontaktiert seine d-Nachbarschaft,I bestimmt alle Ahnlichkeitswerte (Skalarprodukt)I und ladt alle ein, deren Ahnlichkeit großer als eine Grenze G ist.

Also alles ganz einfach!

Die Frage ist nur...

1 Wie bestimmt man unter Geheimhaltung ein Skalarprodukt?

2 Wie ahnlich ist ahnlich genug? G = ...

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 24 / 54

Page 112: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Und so geht’s

Und so geht’s

Der Ansatz basiert auf Network Flooding:I Es gibt einen Community Initiator.I Der kontaktiert seine d-Nachbarschaft,I bestimmt alle Ahnlichkeitswerte (Skalarprodukt)I und ladt alle ein, deren Ahnlichkeit großer als eine Grenze G ist.

Also alles ganz einfach!

Die Frage ist nur...

1 Wie bestimmt man unter Geheimhaltung ein Skalarprodukt?

2 Wie ahnlich ist ahnlich genug? G = ...

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 24 / 54

Page 113: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Und so geht’s

Und so geht’s

Der Ansatz basiert auf Network Flooding:I Es gibt einen Community Initiator.I Der kontaktiert seine d-Nachbarschaft,I bestimmt alle Ahnlichkeitswerte (Skalarprodukt)I und ladt alle ein, deren Ahnlichkeit großer als eine Grenze G ist.

Also alles ganz einfach!

Die Frage ist nur...

1 Wie bestimmt man unter Geheimhaltung ein Skalarprodukt?

2 Wie ahnlich ist ahnlich genug? G = ...

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 24 / 54

Page 114: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Und so geht’s

Und so geht’s

Der Ansatz basiert auf Network Flooding:I Es gibt einen Community Initiator.I Der kontaktiert seine d-Nachbarschaft,I bestimmt alle Ahnlichkeitswerte (Skalarprodukt)I und ladt alle ein, deren Ahnlichkeit großer als eine Grenze G ist.

Also alles ganz einfach!

Die Frage ist nur...

1 Wie bestimmt man unter Geheimhaltung ein Skalarprodukt?

2 Wie ahnlich ist ahnlich genug? G = ...

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 24 / 54

Page 115: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Privates Skalarprodukt

Problem

Gegeben: Profilvektoren von zwei Peers.Aufgabe: Bestimme das Skalarprodukt der Profilvektoren ohne dass einPeer den Profilvektor des anderen erfahrt.

Dafur brauchen wir etwas Cryptographie...

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 25 / 54

Page 116: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Privates Skalarprodukt

Problem

Gegeben: Profilvektoren von zwei Peers.

Aufgabe: Bestimme das Skalarprodukt der Profilvektoren ohne dass einPeer den Profilvektor des anderen erfahrt.

Dafur brauchen wir etwas Cryptographie...

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 25 / 54

Page 117: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Privates Skalarprodukt

Problem

Gegeben: Profilvektoren von zwei Peers.Aufgabe: Bestimme das Skalarprodukt der Profilvektoren ohne dass einPeer den Profilvektor des anderen erfahrt.

Dafur brauchen wir etwas Cryptographie...

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 25 / 54

Page 118: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Privates Skalarprodukt

Problem

Gegeben: Profilvektoren von zwei Peers.Aufgabe: Bestimme das Skalarprodukt der Profilvektoren ohne dass einPeer den Profilvektor des anderen erfahrt.

Dafur brauchen wir etwas Cryptographie...

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 25 / 54

Page 119: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Privates Skalarprodukt

Public-key Cryptosysteme

= Algorithmen fur Key Generation, Encryption und Decryption.

G generiert Schlusselpaare (priv , pub)

Epub(m, r) codiert eine Nachricht m

Dpriv (c) decodiert einen Ciphertext

Außerdem gilt:

I ∀(priv , pub) ∈ G : ∀m, r ∈ Zµ : Dpriv (Epub(m, r)) = mI G ,E ,D in Polynomialzeit berechenbarI Ohne priv keine Decodierung in PolynomialzeitI Kein Erraten von priv in Polynomialzeit

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 26 / 54

Page 120: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Privates Skalarprodukt

Public-key Cryptosysteme

= Algorithmen fur Key Generation, Encryption und Decryption.

G generiert Schlusselpaare (priv , pub)

Epub(m, r) codiert eine Nachricht m

Dpriv (c) decodiert einen Ciphertext

Außerdem gilt:

I ∀(priv , pub) ∈ G : ∀m, r ∈ Zµ : Dpriv (Epub(m, r)) = mI G ,E ,D in Polynomialzeit berechenbarI Ohne priv keine Decodierung in PolynomialzeitI Kein Erraten von priv in Polynomialzeit

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 26 / 54

Page 121: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Privates Skalarprodukt

Public-key Cryptosysteme

= Algorithmen fur Key Generation, Encryption und Decryption.

G generiert Schlusselpaare (priv , pub)

Epub(m, r) codiert eine Nachricht m

Dpriv (c) decodiert einen Ciphertext

Außerdem gilt:

I ∀(priv , pub) ∈ G : ∀m, r ∈ Zµ : Dpriv (Epub(m, r)) = mI G ,E ,D in Polynomialzeit berechenbarI Ohne priv keine Decodierung in PolynomialzeitI Kein Erraten von priv in Polynomialzeit

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 26 / 54

Page 122: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Privates Skalarprodukt

Public-key Cryptosysteme

= Algorithmen fur Key Generation, Encryption und Decryption.

G generiert Schlusselpaare (priv , pub)

Epub(m, r) codiert eine Nachricht m

Dpriv (c) decodiert einen Ciphertext

Außerdem gilt:

I ∀(priv , pub) ∈ G : ∀m, r ∈ Zµ : Dpriv (Epub(m, r)) = mI G ,E ,D in Polynomialzeit berechenbarI Ohne priv keine Decodierung in PolynomialzeitI Kein Erraten von priv in Polynomialzeit

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 26 / 54

Page 123: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Privates Skalarprodukt

Public-key Cryptosysteme

= Algorithmen fur Key Generation, Encryption und Decryption.

G generiert Schlusselpaare (priv , pub)

Epub(m, r) codiert eine Nachricht m

Dpriv (c) decodiert einen Ciphertext

Außerdem gilt:

I ∀(priv , pub) ∈ G : ∀m, r ∈ Zµ : Dpriv (Epub(m, r)) = mI G ,E ,D in Polynomialzeit berechenbarI Ohne priv keine Decodierung in PolynomialzeitI Kein Erraten von priv in Polynomialzeit

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 26 / 54

Page 124: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Privates Skalarprodukt

Public-key Cryptosysteme

= Algorithmen fur Key Generation, Encryption und Decryption.

G generiert Schlusselpaare (priv , pub)

Epub(m, r) codiert eine Nachricht m

Dpriv (c) decodiert einen Ciphertext

Außerdem gilt:

I ∀(priv , pub) ∈ G : ∀m, r ∈ Zµ : Dpriv (Epub(m, r)) = mI G ,E ,D in Polynomialzeit berechenbarI Ohne priv keine Decodierung in PolynomialzeitI Kein Erraten von priv in Polynomialzeit

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 26 / 54

Page 125: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Privates Skalarprodukt

Public-key Cryptosysteme

= Algorithmen fur Key Generation, Encryption und Decryption.

G generiert Schlusselpaare (priv , pub)

Epub(m, r) codiert eine Nachricht m

Dpriv (c) decodiert einen Ciphertext

Außerdem gilt:I ∀(priv , pub) ∈ G : ∀m, r ∈ Zµ : Dpriv (Epub(m, r)) = m

I G ,E ,D in Polynomialzeit berechenbarI Ohne priv keine Decodierung in PolynomialzeitI Kein Erraten von priv in Polynomialzeit

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 26 / 54

Page 126: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Privates Skalarprodukt

Public-key Cryptosysteme

= Algorithmen fur Key Generation, Encryption und Decryption.

G generiert Schlusselpaare (priv , pub)

Epub(m, r) codiert eine Nachricht m

Dpriv (c) decodiert einen Ciphertext

Außerdem gilt:I ∀(priv , pub) ∈ G : ∀m, r ∈ Zµ : Dpriv (Epub(m, r)) = mI G ,E ,D in Polynomialzeit berechenbar

I Ohne priv keine Decodierung in PolynomialzeitI Kein Erraten von priv in Polynomialzeit

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 26 / 54

Page 127: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Privates Skalarprodukt

Public-key Cryptosysteme

= Algorithmen fur Key Generation, Encryption und Decryption.

G generiert Schlusselpaare (priv , pub)

Epub(m, r) codiert eine Nachricht m

Dpriv (c) decodiert einen Ciphertext

Außerdem gilt:I ∀(priv , pub) ∈ G : ∀m, r ∈ Zµ : Dpriv (Epub(m, r)) = mI G ,E ,D in Polynomialzeit berechenbarI Ohne priv keine Decodierung in Polynomialzeit

I Kein Erraten von priv in Polynomialzeit

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 26 / 54

Page 128: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Privates Skalarprodukt

Public-key Cryptosysteme

= Algorithmen fur Key Generation, Encryption und Decryption.

G generiert Schlusselpaare (priv , pub)

Epub(m, r) codiert eine Nachricht m

Dpriv (c) decodiert einen Ciphertext

Außerdem gilt:I ∀(priv , pub) ∈ G : ∀m, r ∈ Zµ : Dpriv (Epub(m, r)) = mI G ,E ,D in Polynomialzeit berechenbarI Ohne priv keine Decodierung in PolynomialzeitI Kein Erraten von priv in Polynomialzeit

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 26 / 54

Page 129: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Privates Skalarprodukt

Homomorphe Public-key Cryptosysteme

= Public-key Cryptosysteme

+ Rechenoperationen auf Klartext durchManipulation von Ciphertext:

∀m1,m2, r1, r2 ∈ Zµ :

Dpriv (Epub(m1, r1)Epub(m2, r2) mod µ2) = m1 + m2 mod µ

Dpriv (Epub(m1, r1)m2 mod µ2) = m1m2 mod µ

Sowas gibt’s.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 27 / 54

Page 130: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Privates Skalarprodukt

Homomorphe Public-key Cryptosysteme

= Public-key Cryptosysteme + Rechenoperationen auf Klartext durchManipulation von Ciphertext:

∀m1,m2, r1, r2 ∈ Zµ :

Dpriv (Epub(m1, r1)Epub(m2, r2) mod µ2) = m1 + m2 mod µ

Dpriv (Epub(m1, r1)m2 mod µ2) = m1m2 mod µ

Sowas gibt’s.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 27 / 54

Page 131: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Privates Skalarprodukt

Homomorphe Public-key Cryptosysteme

= Public-key Cryptosysteme + Rechenoperationen auf Klartext durchManipulation von Ciphertext:

∀m1,m2, r1, r2 ∈ Zµ :

Dpriv (Epub(m1, r1)Epub(m2, r2) mod µ2) = m1 + m2 mod µ

Dpriv (Epub(m1, r1)m2 mod µ2) = m1m2 mod µ

Sowas gibt’s.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 27 / 54

Page 132: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Privates Skalarprodukt

Homomorphe Public-key Cryptosysteme

= Public-key Cryptosysteme + Rechenoperationen auf Klartext durchManipulation von Ciphertext:

∀m1,m2, r1, r2 ∈ Zµ :

Dpriv (Epub(m1, r1)Epub(m2, r2) mod µ2) = m1 + m2 mod µ

Dpriv (Epub(m1, r1)m2 mod µ2) = m1m2 mod µ

Sowas gibt’s.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 27 / 54

Page 133: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Privates Skalarprodukt

Homomorphe Public-key Cryptosysteme

= Public-key Cryptosysteme + Rechenoperationen auf Klartext durchManipulation von Ciphertext:

∀m1,m2, r1, r2 ∈ Zµ :

Dpriv (Epub(m1, r1)Epub(m2, r2) mod µ2) = m1 + m2 mod µ

Dpriv (Epub(m1, r1)m2 mod µ2) = m1m2 mod µ

Sowas gibt’s.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 27 / 54

Page 134: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Privates Skalarprodukt

Homomorphe Public-key Cryptosysteme

= Public-key Cryptosysteme + Rechenoperationen auf Klartext durchManipulation von Ciphertext:

∀m1,m2, r1, r2 ∈ Zµ :

Dpriv (Epub(m1, r1)Epub(m2, r2) mod µ2) = m1 + m2 mod µ

Dpriv (Epub(m1, r1)m2 mod µ2) = m1m2 mod µ

Sowas gibt’s.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 27 / 54

Page 135: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Privates Skalarprodukt

Algorithmus

1 A...

I kennt (a1, . . . , an), (priv , pub)I berechnet (E (a1), . . . ,E (an)) durch Codieren und verschickt es

2 B...

I kennt (b1, . . . , bn)I berechnet (E (a1 · b1), . . . ,E (an · bn)) durch Potenzieren

I berechnet E (n∑

i=1

ai · bi ) durch Multiplizieren und verschickt es

3 A...

I berechnetn∑

i=1

ai · bi mod µ durch Decodieren

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 28 / 54

Page 136: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Privates Skalarprodukt

Algorithmus

1 A...I kennt (a1, . . . , an), (priv , pub)

I berechnet (E (a1), . . . ,E (an)) durch Codieren und verschickt es

2 B...

I kennt (b1, . . . , bn)I berechnet (E (a1 · b1), . . . ,E (an · bn)) durch Potenzieren

I berechnet E (n∑

i=1

ai · bi ) durch Multiplizieren und verschickt es

3 A...

I berechnetn∑

i=1

ai · bi mod µ durch Decodieren

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 28 / 54

Page 137: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Privates Skalarprodukt

Algorithmus

1 A...I kennt (a1, . . . , an), (priv , pub)I berechnet (E (a1), . . . ,E (an)) durch Codieren und verschickt es

2 B...

I kennt (b1, . . . , bn)I berechnet (E (a1 · b1), . . . ,E (an · bn)) durch Potenzieren

I berechnet E (n∑

i=1

ai · bi ) durch Multiplizieren und verschickt es

3 A...

I berechnetn∑

i=1

ai · bi mod µ durch Decodieren

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 28 / 54

Page 138: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Privates Skalarprodukt

Algorithmus

1 A...I kennt (a1, . . . , an), (priv , pub)I berechnet (E (a1), . . . ,E (an)) durch Codieren und verschickt es

2 B...

I kennt (b1, . . . , bn)I berechnet (E (a1 · b1), . . . ,E (an · bn)) durch Potenzieren

I berechnet E (n∑

i=1

ai · bi ) durch Multiplizieren und verschickt es

3 A...

I berechnetn∑

i=1

ai · bi mod µ durch Decodieren

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 28 / 54

Page 139: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Privates Skalarprodukt

Algorithmus

1 A...I kennt (a1, . . . , an), (priv , pub)I berechnet (E (a1), . . . ,E (an)) durch Codieren und verschickt es

2 B...I kennt (b1, . . . , bn)

I berechnet (E (a1 · b1), . . . ,E (an · bn)) durch Potenzieren

I berechnet E (n∑

i=1

ai · bi ) durch Multiplizieren und verschickt es

3 A...

I berechnetn∑

i=1

ai · bi mod µ durch Decodieren

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 28 / 54

Page 140: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Privates Skalarprodukt

Algorithmus

1 A...I kennt (a1, . . . , an), (priv , pub)I berechnet (E (a1), . . . ,E (an)) durch Codieren und verschickt es

2 B...I kennt (b1, . . . , bn)I berechnet (E (a1 · b1), . . . ,E (an · bn)) durch Potenzieren

I berechnet E (n∑

i=1

ai · bi ) durch Multiplizieren und verschickt es

3 A...

I berechnetn∑

i=1

ai · bi mod µ durch Decodieren

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 28 / 54

Page 141: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Privates Skalarprodukt

Algorithmus

1 A...I kennt (a1, . . . , an), (priv , pub)I berechnet (E (a1), . . . ,E (an)) durch Codieren und verschickt es

2 B...I kennt (b1, . . . , bn)I berechnet (E (a1 · b1), . . . ,E (an · bn)) durch Potenzieren

I berechnet E (n∑

i=1

ai · bi ) durch Multiplizieren und verschickt es

3 A...

I berechnetn∑

i=1

ai · bi mod µ durch Decodieren

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 28 / 54

Page 142: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Privates Skalarprodukt

Algorithmus

1 A...I kennt (a1, . . . , an), (priv , pub)I berechnet (E (a1), . . . ,E (an)) durch Codieren und verschickt es

2 B...I kennt (b1, . . . , bn)I berechnet (E (a1 · b1), . . . ,E (an · bn)) durch Potenzieren

I berechnet E (n∑

i=1

ai · bi ) durch Multiplizieren und verschickt es

3 A...

I berechnetn∑

i=1

ai · bi mod µ durch Decodieren

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 28 / 54

Page 143: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Privates Skalarprodukt

Algorithmus

1 A...I kennt (a1, . . . , an), (priv , pub)I berechnet (E (a1), . . . ,E (an)) durch Codieren und verschickt es

2 B...I kennt (b1, . . . , bn)I berechnet (E (a1 · b1), . . . ,E (an · bn)) durch Potenzieren

I berechnet E (n∑

i=1

ai · bi ) durch Multiplizieren und verschickt es

3 A...

I berechnetn∑

i=1

ai · bi mod µ durch Decodieren

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 28 / 54

Page 144: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Wie ahnlich ist ahnlich genug?

Zwischenergebnis

Wir konnen Ahnlichkeit zu anderen Peers berechnen. (Und das auchnoch so richtig vertraulich.)

Communitybildung ist einfach: Wir laden alle d-Nachbarn ein, derenAhnlichkeit großer als G ist.

Problem

Wie ahnlich ist ahnlich genug? G = ...

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 29 / 54

Page 145: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Wie ahnlich ist ahnlich genug?

Zwischenergebnis

Wir konnen Ahnlichkeit zu anderen Peers berechnen. (Und das auchnoch so richtig vertraulich.)

Communitybildung ist einfach: Wir laden alle d-Nachbarn ein, derenAhnlichkeit großer als G ist.

Problem

Wie ahnlich ist ahnlich genug? G = ...

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 29 / 54

Page 146: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Wie ahnlich ist ahnlich genug?

Zwischenergebnis

Wir konnen Ahnlichkeit zu anderen Peers berechnen. (Und das auchnoch so richtig vertraulich.)

Communitybildung ist einfach:

Wir laden alle d-Nachbarn ein, derenAhnlichkeit großer als G ist.

Problem

Wie ahnlich ist ahnlich genug? G = ...

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 29 / 54

Page 147: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Wie ahnlich ist ahnlich genug?

Zwischenergebnis

Wir konnen Ahnlichkeit zu anderen Peers berechnen. (Und das auchnoch so richtig vertraulich.)

Communitybildung ist einfach: Wir laden alle d-Nachbarn ein, derenAhnlichkeit großer als G ist.

Problem

Wie ahnlich ist ahnlich genug? G = ...

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 29 / 54

Page 148: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Wie ahnlich ist ahnlich genug?

Zwischenergebnis

Wir konnen Ahnlichkeit zu anderen Peers berechnen. (Und das auchnoch so richtig vertraulich.)

Communitybildung ist einfach: Wir laden alle d-Nachbarn ein, derenAhnlichkeit großer als G ist.

Problem

Wie ahnlich ist ahnlich genug? G = ...

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 29 / 54

Page 149: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Wie ahnlich ist ahnlich genug?

Schlechte Ideen

1 Wahle G fest, irgendwie.Wie viele Peers sind dann ahnlicher als G? 50%, 80%, 0%, 100%?Wir wissen nicht, wie die Ahnlichkeit im Netzwerk verteilt ist!

2 Wir haben doch unsere d-Nachbarn. Wahle G so, dass es died-Nachbarn geeignet teilt. Niemand sagt, dass unsere Nachbarnreprasentativ fur das ganze Netzwerk sind!

3 Befrage alle Peers und wahle G passend.Lieber nicht!

Fazit

Wir brauchen einen schlaues Verfahren mit

1 beherrschbarem Aufwand

2 globaler Gutegarantie fur G

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 30 / 54

Page 150: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Wie ahnlich ist ahnlich genug?

Schlechte Ideen1 Wahle G fest, irgendwie.

Wie viele Peers sind dann ahnlicher als G? 50%, 80%, 0%, 100%?Wir wissen nicht, wie die Ahnlichkeit im Netzwerk verteilt ist!

2 Wir haben doch unsere d-Nachbarn. Wahle G so, dass es died-Nachbarn geeignet teilt. Niemand sagt, dass unsere Nachbarnreprasentativ fur das ganze Netzwerk sind!

3 Befrage alle Peers und wahle G passend.Lieber nicht!

Fazit

Wir brauchen einen schlaues Verfahren mit

1 beherrschbarem Aufwand

2 globaler Gutegarantie fur G

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 30 / 54

Page 151: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Wie ahnlich ist ahnlich genug?

Schlechte Ideen1 Wahle G fest, irgendwie.

Wie viele Peers sind dann ahnlicher als G?

50%, 80%, 0%, 100%?Wir wissen nicht, wie die Ahnlichkeit im Netzwerk verteilt ist!

2 Wir haben doch unsere d-Nachbarn. Wahle G so, dass es died-Nachbarn geeignet teilt. Niemand sagt, dass unsere Nachbarnreprasentativ fur das ganze Netzwerk sind!

3 Befrage alle Peers und wahle G passend.Lieber nicht!

Fazit

Wir brauchen einen schlaues Verfahren mit

1 beherrschbarem Aufwand

2 globaler Gutegarantie fur G

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 30 / 54

Page 152: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Wie ahnlich ist ahnlich genug?

Schlechte Ideen1 Wahle G fest, irgendwie.

Wie viele Peers sind dann ahnlicher als G? 50%,

80%, 0%, 100%?Wir wissen nicht, wie die Ahnlichkeit im Netzwerk verteilt ist!

2 Wir haben doch unsere d-Nachbarn. Wahle G so, dass es died-Nachbarn geeignet teilt. Niemand sagt, dass unsere Nachbarnreprasentativ fur das ganze Netzwerk sind!

3 Befrage alle Peers und wahle G passend.Lieber nicht!

Fazit

Wir brauchen einen schlaues Verfahren mit

1 beherrschbarem Aufwand

2 globaler Gutegarantie fur G

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 30 / 54

Page 153: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Wie ahnlich ist ahnlich genug?

Schlechte Ideen1 Wahle G fest, irgendwie.

Wie viele Peers sind dann ahnlicher als G? 50%, 80%,

0%, 100%?Wir wissen nicht, wie die Ahnlichkeit im Netzwerk verteilt ist!

2 Wir haben doch unsere d-Nachbarn. Wahle G so, dass es died-Nachbarn geeignet teilt. Niemand sagt, dass unsere Nachbarnreprasentativ fur das ganze Netzwerk sind!

3 Befrage alle Peers und wahle G passend.Lieber nicht!

Fazit

Wir brauchen einen schlaues Verfahren mit

1 beherrschbarem Aufwand

2 globaler Gutegarantie fur G

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 30 / 54

Page 154: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Wie ahnlich ist ahnlich genug?

Schlechte Ideen1 Wahle G fest, irgendwie.

Wie viele Peers sind dann ahnlicher als G? 50%, 80%, 0%,

100%?Wir wissen nicht, wie die Ahnlichkeit im Netzwerk verteilt ist!

2 Wir haben doch unsere d-Nachbarn. Wahle G so, dass es died-Nachbarn geeignet teilt. Niemand sagt, dass unsere Nachbarnreprasentativ fur das ganze Netzwerk sind!

3 Befrage alle Peers und wahle G passend.Lieber nicht!

Fazit

Wir brauchen einen schlaues Verfahren mit

1 beherrschbarem Aufwand

2 globaler Gutegarantie fur G

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 30 / 54

Page 155: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Wie ahnlich ist ahnlich genug?

Schlechte Ideen1 Wahle G fest, irgendwie.

Wie viele Peers sind dann ahnlicher als G? 50%, 80%, 0%, 100%?

Wir wissen nicht, wie die Ahnlichkeit im Netzwerk verteilt ist!

2 Wir haben doch unsere d-Nachbarn. Wahle G so, dass es died-Nachbarn geeignet teilt. Niemand sagt, dass unsere Nachbarnreprasentativ fur das ganze Netzwerk sind!

3 Befrage alle Peers und wahle G passend.Lieber nicht!

Fazit

Wir brauchen einen schlaues Verfahren mit

1 beherrschbarem Aufwand

2 globaler Gutegarantie fur G

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 30 / 54

Page 156: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Wie ahnlich ist ahnlich genug?

Schlechte Ideen1 Wahle G fest, irgendwie.

Wie viele Peers sind dann ahnlicher als G? 50%, 80%, 0%, 100%?Wir wissen nicht, wie die Ahnlichkeit im Netzwerk verteilt ist!

2 Wir haben doch unsere d-Nachbarn. Wahle G so, dass es died-Nachbarn geeignet teilt. Niemand sagt, dass unsere Nachbarnreprasentativ fur das ganze Netzwerk sind!

3 Befrage alle Peers und wahle G passend.Lieber nicht!

Fazit

Wir brauchen einen schlaues Verfahren mit

1 beherrschbarem Aufwand

2 globaler Gutegarantie fur G

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 30 / 54

Page 157: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Wie ahnlich ist ahnlich genug?

Schlechte Ideen1 Wahle G fest, irgendwie.

Wie viele Peers sind dann ahnlicher als G? 50%, 80%, 0%, 100%?Wir wissen nicht, wie die Ahnlichkeit im Netzwerk verteilt ist!

2 Wir haben doch unsere d-Nachbarn. Wahle G so, dass es died-Nachbarn geeignet teilt.

Niemand sagt, dass unsere Nachbarnreprasentativ fur das ganze Netzwerk sind!

3 Befrage alle Peers und wahle G passend.Lieber nicht!

Fazit

Wir brauchen einen schlaues Verfahren mit

1 beherrschbarem Aufwand

2 globaler Gutegarantie fur G

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 30 / 54

Page 158: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Wie ahnlich ist ahnlich genug?

Schlechte Ideen1 Wahle G fest, irgendwie.

Wie viele Peers sind dann ahnlicher als G? 50%, 80%, 0%, 100%?Wir wissen nicht, wie die Ahnlichkeit im Netzwerk verteilt ist!

2 Wir haben doch unsere d-Nachbarn. Wahle G so, dass es died-Nachbarn geeignet teilt. Niemand sagt, dass unsere Nachbarnreprasentativ fur das ganze Netzwerk sind!

3 Befrage alle Peers und wahle G passend.Lieber nicht!

Fazit

Wir brauchen einen schlaues Verfahren mit

1 beherrschbarem Aufwand

2 globaler Gutegarantie fur G

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 30 / 54

Page 159: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Wie ahnlich ist ahnlich genug?

Schlechte Ideen1 Wahle G fest, irgendwie.

Wie viele Peers sind dann ahnlicher als G? 50%, 80%, 0%, 100%?Wir wissen nicht, wie die Ahnlichkeit im Netzwerk verteilt ist!

2 Wir haben doch unsere d-Nachbarn. Wahle G so, dass es died-Nachbarn geeignet teilt. Niemand sagt, dass unsere Nachbarnreprasentativ fur das ganze Netzwerk sind!

3 Befrage alle Peers und wahle G passend.

Lieber nicht!

Fazit

Wir brauchen einen schlaues Verfahren mit

1 beherrschbarem Aufwand

2 globaler Gutegarantie fur G

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 30 / 54

Page 160: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Wie ahnlich ist ahnlich genug?

Schlechte Ideen1 Wahle G fest, irgendwie.

Wie viele Peers sind dann ahnlicher als G? 50%, 80%, 0%, 100%?Wir wissen nicht, wie die Ahnlichkeit im Netzwerk verteilt ist!

2 Wir haben doch unsere d-Nachbarn. Wahle G so, dass es died-Nachbarn geeignet teilt. Niemand sagt, dass unsere Nachbarnreprasentativ fur das ganze Netzwerk sind!

3 Befrage alle Peers und wahle G passend.Lieber nicht!

Fazit

Wir brauchen einen schlaues Verfahren mit

1 beherrschbarem Aufwand

2 globaler Gutegarantie fur G

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 30 / 54

Page 161: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Wie ahnlich ist ahnlich genug?

Schlechte Ideen1 Wahle G fest, irgendwie.

Wie viele Peers sind dann ahnlicher als G? 50%, 80%, 0%, 100%?Wir wissen nicht, wie die Ahnlichkeit im Netzwerk verteilt ist!

2 Wir haben doch unsere d-Nachbarn. Wahle G so, dass es died-Nachbarn geeignet teilt. Niemand sagt, dass unsere Nachbarnreprasentativ fur das ganze Netzwerk sind!

3 Befrage alle Peers und wahle G passend.Lieber nicht!

Fazit

Wir brauchen einen schlaues Verfahren mit

1 beherrschbarem Aufwand

2 globaler Gutegarantie fur G

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 30 / 54

Page 162: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Wie ahnlich ist ahnlich genug?

Schlechte Ideen1 Wahle G fest, irgendwie.

Wie viele Peers sind dann ahnlicher als G? 50%, 80%, 0%, 100%?Wir wissen nicht, wie die Ahnlichkeit im Netzwerk verteilt ist!

2 Wir haben doch unsere d-Nachbarn. Wahle G so, dass es died-Nachbarn geeignet teilt. Niemand sagt, dass unsere Nachbarnreprasentativ fur das ganze Netzwerk sind!

3 Befrage alle Peers und wahle G passend.Lieber nicht!

Fazit

Wir brauchen einen schlaues Verfahren mit

1 beherrschbarem Aufwand

2 globaler Gutegarantie fur G

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 30 / 54

Page 163: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Wie ahnlich ist ahnlich genug?

Schlechte Ideen1 Wahle G fest, irgendwie.

Wie viele Peers sind dann ahnlicher als G? 50%, 80%, 0%, 100%?Wir wissen nicht, wie die Ahnlichkeit im Netzwerk verteilt ist!

2 Wir haben doch unsere d-Nachbarn. Wahle G so, dass es died-Nachbarn geeignet teilt. Niemand sagt, dass unsere Nachbarnreprasentativ fur das ganze Netzwerk sind!

3 Befrage alle Peers und wahle G passend.Lieber nicht!

Fazit

Wir brauchen einen schlaues Verfahren mit

1 beherrschbarem Aufwand

2 globaler Gutegarantie fur G

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 30 / 54

Page 164: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Wie ahnlich ist ahnlich genug?

|x1| < |x2| < | . . . | < |xi | < | . . . | < |xn−1| < |xn|

Gedankenexperiment (1)

Angenommen es gibt n Peers im Netzwerk.

Deren Ahnlichkeitswerte x1, ..., xn sind vollstandig bekannt undaufsteigend sortiert (x1 < ... < xn)

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 31 / 54

Page 165: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Wie ahnlich ist ahnlich genug?

|x1| < |x2| < | . . . | < |xi | < | . . . | < |xn−1| < |xn|

Gedankenexperiment (1)

Angenommen es gibt n Peers im Netzwerk.

Deren Ahnlichkeitswerte x1, ..., xn sind vollstandig bekannt undaufsteigend sortiert (x1 < ... < xn)

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 31 / 54

Page 166: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Wie ahnlich ist ahnlich genug?

|x1| < |x2| < | . . . | < |xi | < | . . . | < |xn−1| < |xn|

Gedankenexperiment (1)

Angenommen es gibt n Peers im Netzwerk.

Deren Ahnlichkeitswerte x1, ..., xn sind vollstandig bekannt undaufsteigend sortiert (x1 < ... < xn)

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 31 / 54

Page 167: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Wie ahnlich ist ahnlich genug?

i von n Peers mit x≤G︷ ︸︸ ︷|x1| < |x2| < | · · · | < |xi |︸︷︷︸

=:G

< | · · · | < |xn−1| < |xn|

Gedankenexperiment (2)

Angenommen xi wird als Grenzwert G genommen.

Dann gibt es genau i Peers mit x ≤ G .

Bei zufallig gleichverteilter Wahl erwischt man einen solchen Peer mitWahrscheinlichkeit p := i

n .

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 32 / 54

Page 168: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Wie ahnlich ist ahnlich genug?

i von n Peers mit x≤G︷ ︸︸ ︷|x1| < |x2| < | · · · | < |xi |︸︷︷︸

=:G

< | · · · | < |xn−1| < |xn|

Gedankenexperiment (2)

Angenommen xi wird als Grenzwert G genommen.

Dann gibt es genau i Peers mit x ≤ G .

Bei zufallig gleichverteilter Wahl erwischt man einen solchen Peer mitWahrscheinlichkeit p := i

n .

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 32 / 54

Page 169: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Wie ahnlich ist ahnlich genug?

i von n Peers mit x≤G︷ ︸︸ ︷|x1| < |x2| < | · · · | < |xi |︸︷︷︸

=:G

< | · · · | < |xn−1| < |xn|

Gedankenexperiment (2)

Angenommen xi wird als Grenzwert G genommen.

Dann gibt es genau i Peers mit x ≤ G .

Bei zufallig gleichverteilter Wahl erwischt man einen solchen Peer mitWahrscheinlichkeit p := i

n .

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 32 / 54

Page 170: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Wie ahnlich ist ahnlich genug?

i von n Peers mit x≤G︷ ︸︸ ︷|x1| < |x2| < | · · · | < |xi |︸︷︷︸

=:G

< | · · · | < |xn−1| < |xn|

Gedankenexperiment (2)

Angenommen xi wird als Grenzwert G genommen.

Dann gibt es genau i Peers mit x ≤ G .

Bei zufallig gleichverteilter Wahl erwischt man einen solchen Peer mitWahrscheinlichkeit p := i

n .

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 32 / 54

Page 171: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Wie ahnlich ist ahnlich genug?

Flop 80%︷ ︸︸ ︷| · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · | · · · · · · · · · |︸ ︷︷ ︸

Top 20%

getrennt durch Q80%

Gedankenexperiment (3) - Definition p-Quantil

Eine Grenze mit dieser Eigenschaft heißt p-Quantil Qp:Pr(x ≤ Qp) = p(x = Ahnlichkeit eines zufallig gleichverteilt gewahlten Peers)

Solche Grenzen zu bestimmen ist interessant. Angenommen, wir kennenQ80%. Dann konnen wir bestimmen, ob ein Peer zu den Top 20%ahnlichsten Peers im Netzwerk gehort.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 33 / 54

Page 172: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Wie ahnlich ist ahnlich genug?

Flop 80%︷ ︸︸ ︷| · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · | · · · · · · · · · |︸ ︷︷ ︸

Top 20%

getrennt durch Q80%

Gedankenexperiment (3) - Definition p-Quantil

Eine Grenze mit dieser Eigenschaft heißt p-Quantil Qp:

Pr(x ≤ Qp) = p(x = Ahnlichkeit eines zufallig gleichverteilt gewahlten Peers)

Solche Grenzen zu bestimmen ist interessant. Angenommen, wir kennenQ80%. Dann konnen wir bestimmen, ob ein Peer zu den Top 20%ahnlichsten Peers im Netzwerk gehort.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 33 / 54

Page 173: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Wie ahnlich ist ahnlich genug?

Flop 80%︷ ︸︸ ︷| · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · | · · · · · · · · · |︸ ︷︷ ︸

Top 20%

getrennt durch Q80%

Gedankenexperiment (3) - Definition p-Quantil

Eine Grenze mit dieser Eigenschaft heißt p-Quantil Qp:Pr(x ≤ Qp) = p(x = Ahnlichkeit eines zufallig gleichverteilt gewahlten Peers)

Solche Grenzen zu bestimmen ist interessant. Angenommen, wir kennenQ80%. Dann konnen wir bestimmen, ob ein Peer zu den Top 20%ahnlichsten Peers im Netzwerk gehort.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 33 / 54

Page 174: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Wie ahnlich ist ahnlich genug?

Flop 80%︷ ︸︸ ︷| · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · | · · · · · · · · · |︸ ︷︷ ︸

Top 20%

getrennt durch Q80%

Gedankenexperiment (3) - Definition p-Quantil

Eine Grenze mit dieser Eigenschaft heißt p-Quantil Qp:Pr(x ≤ Qp) = p(x = Ahnlichkeit eines zufallig gleichverteilt gewahlten Peers)

Solche Grenzen zu bestimmen ist interessant. Angenommen, wir kennenQ80%. Dann konnen wir bestimmen, ob ein Peer zu den Top 20%ahnlichsten Peers im Netzwerk gehort.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 33 / 54

Page 175: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Grenzwert durch Stichprobe

Jetzt: Die Wunderwaffe

Algorithmus zum Bestimmen einer Grenze G , die mit einerWahrscheinlichkeit von mindestens q das p-Quantil ubertrifft.

Algorithmus

Wahle zufallig gleichverteilt N := N(p, q) Peers aus dem Netzwerk.

Bestimme deren Ahnlichkeiten xi .

Setze G := max {xi}.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 34 / 54

Page 176: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Grenzwert durch Stichprobe

Jetzt: Die Wunderwaffe

Algorithmus zum Bestimmen einer Grenze G , die mit einerWahrscheinlichkeit von mindestens q das p-Quantil ubertrifft.

Algorithmus

Wahle zufallig gleichverteilt N := N(p, q) Peers aus dem Netzwerk.

Bestimme deren Ahnlichkeiten xi .

Setze G := max {xi}.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 34 / 54

Page 177: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Grenzwert durch Stichprobe

Jetzt: Die Wunderwaffe

Algorithmus zum Bestimmen einer Grenze G , die mit einerWahrscheinlichkeit von mindestens q das p-Quantil ubertrifft.

Algorithmus

Wahle zufallig gleichverteilt N := N(p, q) Peers aus dem Netzwerk.

Bestimme deren Ahnlichkeiten xi .

Setze G := max {xi}.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 34 / 54

Page 178: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Grenzwert durch Stichprobe

Jetzt: Die Wunderwaffe

Algorithmus zum Bestimmen einer Grenze G , die mit einerWahrscheinlichkeit von mindestens q das p-Quantil ubertrifft.

Algorithmus

Wahle zufallig gleichverteilt N := N(p, q) Peers aus dem Netzwerk.

Bestimme deren Ahnlichkeiten xi .

Setze G := max {xi}.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 34 / 54

Page 179: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Grenzwert durch Stichprobe

Jetzt: Die Wunderwaffe

Algorithmus zum Bestimmen einer Grenze G , die mit einerWahrscheinlichkeit von mindestens q das p-Quantil ubertrifft.

Algorithmus

Wahle zufallig gleichverteilt N := N(p, q) Peers aus dem Netzwerk.

Bestimme deren Ahnlichkeiten xi .

Setze G := max {xi}.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 34 / 54

Page 180: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Grenzwert durch Stichprobe

Analyse

Wie groß ist die Wahrscheinlichkeit, dass diese Grenze großer als Qp ist?

Pr(G > Qp) = 1− Pr(G ≤ Qp)

= 1− Pr(max {xi} ≤ Qp)

= 1− Pr(Alle xi ≤ Qp)

= 1− pN > q

Wie wahlt man N fur gegebenes p, q?

N(p, q) :=

⌈log(1− q)

log(p)

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 35 / 54

Page 181: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Grenzwert durch Stichprobe

Analyse

Wie groß ist die Wahrscheinlichkeit, dass diese Grenze großer als Qp ist?

Pr(G > Qp) = 1− Pr(G ≤ Qp)

= 1− Pr(max {xi} ≤ Qp)

= 1− Pr(Alle xi ≤ Qp)

= 1− pN > q

Wie wahlt man N fur gegebenes p, q?

N(p, q) :=

⌈log(1− q)

log(p)

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 35 / 54

Page 182: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Grenzwert durch Stichprobe

Analyse

Wie groß ist die Wahrscheinlichkeit, dass diese Grenze großer als Qp ist?

Pr(G > Qp) = 1− Pr(G ≤ Qp)

= 1− Pr(max {xi} ≤ Qp)

= 1− Pr(Alle xi ≤ Qp)

= 1− pN > q

Wie wahlt man N fur gegebenes p, q?

N(p, q) :=

⌈log(1− q)

log(p)

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 35 / 54

Page 183: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Grenzwert durch Stichprobe

Analyse

Wie groß ist die Wahrscheinlichkeit, dass diese Grenze großer als Qp ist?

Pr(G > Qp) = 1− Pr(G ≤ Qp)

= 1− Pr(max {xi} ≤ Qp)

= 1− Pr(Alle xi ≤ Qp)

= 1− pN > q

Wie wahlt man N fur gegebenes p, q?

N(p, q) :=

⌈log(1− q)

log(p)

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 35 / 54

Page 184: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Grenzwert durch Stichprobe

Analyse

Wie groß ist die Wahrscheinlichkeit, dass diese Grenze großer als Qp ist?

Pr(G > Qp) = 1− Pr(G ≤ Qp)

= 1− Pr(max {xi} ≤ Qp)

= 1− Pr(Alle xi ≤ Qp)

= 1− pN > q

Wie wahlt man N fur gegebenes p, q?

N(p, q) :=

⌈log(1− q)

log(p)

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 35 / 54

Page 185: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Grenzwert durch Stichprobe

Analyse

Wie groß ist die Wahrscheinlichkeit, dass diese Grenze großer als Qp ist?

Pr(G > Qp) = 1− Pr(G ≤ Qp)

= 1− Pr(max {xi} ≤ Qp)

= 1− Pr(Alle xi ≤ Qp)

= 1− pN

> q

Wie wahlt man N fur gegebenes p, q?

N(p, q) :=

⌈log(1− q)

log(p)

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 35 / 54

Page 186: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Grenzwert durch Stichprobe

Analyse

Wie groß ist die Wahrscheinlichkeit, dass diese Grenze großer als Qp ist?

Pr(G > Qp) = 1− Pr(G ≤ Qp)

= 1− Pr(max {xi} ≤ Qp)

= 1− Pr(Alle xi ≤ Qp)

= 1− pN > q

Wie wahlt man N fur gegebenes p, q?

N(p, q) :=

⌈log(1− q)

log(p)

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 35 / 54

Page 187: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Grenzwert durch Stichprobe

Analyse

Wie groß ist die Wahrscheinlichkeit, dass diese Grenze großer als Qp ist?

Pr(G > Qp) = 1− Pr(G ≤ Qp)

= 1− Pr(max {xi} ≤ Qp)

= 1− Pr(Alle xi ≤ Qp)

= 1− pN > q

Wie wahlt man N fur gegebenes p, q?

N(p, q) :=

⌈log(1− q)

log(p)

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 35 / 54

Page 188: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Grenzwert durch Stichprobe

Analyse

Wie groß ist die Wahrscheinlichkeit, dass diese Grenze großer als Qp ist?

Pr(G > Qp) = 1− Pr(G ≤ Qp)

= 1− Pr(max {xi} ≤ Qp)

= 1− Pr(Alle xi ≤ Qp)

= 1− pN > q

Wie wahlt man N fur gegebenes p, q?

N(p, q) :=

⌈log(1− q)

log(p)

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 35 / 54

Page 189: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Grenzwert durch Stichprobe

Zahlenbeispiele (1)

Wir wollen eine Grenze G , die mit einer Wahrscheinlichkeit von mindestensq das p-Quantil ubertrifft. Wie viele Peers fragen wir?

p q N(p, q)

80% 80% 885% 80% 1090% 80% 1695% 80% 32

80% 85% 985% 85% 1290% 85% 1995% 85% 37

p q N(p, q)

80% 90% 1185% 90% 1590% 90% 2295% 90% 45

80% 95% 1485% 95% 1990% 95% 2995% 95% 59

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 36 / 54

Page 190: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Grenzwert durch Stichprobe

Zahlenbeispiele (1)

Wir wollen eine Grenze G , die mit einer Wahrscheinlichkeit von mindestensq das p-Quantil ubertrifft. Wie viele Peers fragen wir?

p q N(p, q)

80% 80% 885% 80% 1090% 80% 1695% 80% 32

80% 85% 985% 85% 1290% 85% 1995% 85% 37

p q N(p, q)

80% 90% 1185% 90% 1590% 90% 2295% 90% 45

80% 95% 1485% 95% 1990% 95% 2995% 95% 59

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 36 / 54

Page 191: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Grenzwert durch Stichprobe

Zahlenbeispiele (1)

Wir wollen eine Grenze G , die mit einer Wahrscheinlichkeit von mindestensq das p-Quantil ubertrifft. Wie viele Peers fragen wir?

p q N(p, q)

80% 80% 885% 80% 1090% 80% 1695% 80% 32

80% 85% 985% 85% 1290% 85% 1995% 85% 37

p q N(p, q)

80% 90% 1185% 90% 1590% 90% 2295% 90% 45

80% 95% 1485% 95% 1990% 95% 2995% 95% 59

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 36 / 54

Page 192: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Grenzwert durch Stichprobe

Zahlenbeispiele (2)

Wir haben N Peers befragt. Wie sicher konnen wir sein, dass wir einbestimmtes p-Quantil ubertreffen?

p N q(p,N)

70% 5 83%80% 5 67%90% 5 41%95% 5 23%

70% 10 97%80% 10 89%90% 10 65%95% 10 40%

p N q(p,N)

70% 15 100%80% 15 96%90% 15 79%95% 15 54%

70% 20 100%80% 20 99%90% 20 88%95% 20 64%

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 37 / 54

Page 193: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Grenzwert durch Stichprobe

Zahlenbeispiele (2)

Wir haben N Peers befragt. Wie sicher konnen wir sein, dass wir einbestimmtes p-Quantil ubertreffen?

p N q(p,N)

70% 5 83%80% 5 67%90% 5 41%95% 5 23%

70% 10 97%80% 10 89%90% 10 65%95% 10 40%

p N q(p,N)

70% 15 100%80% 15 96%90% 15 79%95% 15 54%

70% 20 100%80% 20 99%90% 20 88%95% 20 64%

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 37 / 54

Page 194: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Grenzwert durch Stichprobe

Zahlenbeispiele (2)

Wir haben N Peers befragt. Wie sicher konnen wir sein, dass wir einbestimmtes p-Quantil ubertreffen?

p N q(p,N)

70% 5 83%80% 5 67%90% 5 41%95% 5 23%

70% 10 97%80% 10 89%90% 10 65%95% 10 40%

p N q(p,N)

70% 15 100%80% 15 96%90% 15 79%95% 15 54%

70% 20 100%80% 20 99%90% 20 88%95% 20 64%

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 37 / 54

Page 195: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Grenzwert durch Stichprobe

Fazit

Der Algorithmus”Grenzwert durch Stichprobe“ liefert uns eine gute

Grenze G

mit

1 beherrschbarem Aufwand (sogar unabhangig von der Netzwerkgroße!)

2 einer globalen Gutegarantie

...vorausgesetzt: Wir konnen zufallig gleichverteilt Peers im Netzwerkkontaktieren.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 38 / 54

Page 196: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Grenzwert durch Stichprobe

Fazit

Der Algorithmus”Grenzwert durch Stichprobe“ liefert uns eine gute

Grenze G mit

1 beherrschbarem Aufwand (sogar unabhangig von der Netzwerkgroße!)

2 einer globalen Gutegarantie

...vorausgesetzt: Wir konnen zufallig gleichverteilt Peers im Netzwerkkontaktieren.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 38 / 54

Page 197: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Grenzwert durch Stichprobe

Fazit

Der Algorithmus”Grenzwert durch Stichprobe“ liefert uns eine gute

Grenze G mit

1 beherrschbarem Aufwand (sogar unabhangig von der Netzwerkgroße!)

2 einer globalen Gutegarantie

...vorausgesetzt: Wir konnen zufallig gleichverteilt Peers im Netzwerkkontaktieren.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 38 / 54

Page 198: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Grenzwert durch Stichprobe

Fazit

Der Algorithmus”Grenzwert durch Stichprobe“ liefert uns eine gute

Grenze G mit

1 beherrschbarem Aufwand (sogar unabhangig von der Netzwerkgroße!)

2 einer globalen Gutegarantie

...vorausgesetzt: Wir konnen zufallig gleichverteilt Peers im Netzwerkkontaktieren.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 38 / 54

Page 199: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Zufallige Peers im Netzwerk

Problem

Wie findet man mit uniformer Verteilung zufallige Peers im Netzwerk?

Losung

Random Walk!

Grundidee

Initiator erzeugt Random Walk Paket mit Kontaktdaten undLebensdauer.

Solange die Lebensdauer nicht abgelaufen ist, wird das Paket an einenzufalligen Nachbarn weitergeleitet.

Der Peer, der das abgelaufene Paket erhalt, meldet sich beim Initiator.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 39 / 54

Page 200: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Zufallige Peers im Netzwerk

Problem

Wie findet man mit uniformer Verteilung zufallige Peers im Netzwerk?

Losung

Random Walk!

Grundidee

Initiator erzeugt Random Walk Paket mit Kontaktdaten undLebensdauer.

Solange die Lebensdauer nicht abgelaufen ist, wird das Paket an einenzufalligen Nachbarn weitergeleitet.

Der Peer, der das abgelaufene Paket erhalt, meldet sich beim Initiator.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 39 / 54

Page 201: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Zufallige Peers im Netzwerk

Problem

Wie findet man mit uniformer Verteilung zufallige Peers im Netzwerk?

Losung

Random Walk!

Grundidee

Initiator erzeugt Random Walk Paket mit Kontaktdaten undLebensdauer.

Solange die Lebensdauer nicht abgelaufen ist, wird das Paket an einenzufalligen Nachbarn weitergeleitet.

Der Peer, der das abgelaufene Paket erhalt, meldet sich beim Initiator.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 39 / 54

Page 202: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Zufallige Peers im Netzwerk

Problem

Wie findet man mit uniformer Verteilung zufallige Peers im Netzwerk?

Losung

Random Walk!

Grundidee

Initiator erzeugt Random Walk Paket mit Kontaktdaten undLebensdauer.

Solange die Lebensdauer nicht abgelaufen ist, wird das Paket an einenzufalligen Nachbarn weitergeleitet.

Der Peer, der das abgelaufene Paket erhalt, meldet sich beim Initiator.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 39 / 54

Page 203: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Zufallige Peers im Netzwerk

Problem

Wie findet man mit uniformer Verteilung zufallige Peers im Netzwerk?

Losung

Random Walk!

Grundidee

Initiator erzeugt Random Walk Paket mit Kontaktdaten undLebensdauer.

Solange die Lebensdauer nicht abgelaufen ist, wird das Paket an einenzufalligen Nachbarn weitergeleitet.

Der Peer, der das abgelaufene Paket erhalt, meldet sich beim Initiator.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 39 / 54

Page 204: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Random WalksWahl des nachsten Peers

Entscheidene Frage

Wie wahlt man den nachsten Peer?

Metropolis-Hastings Random Walk

pij sei die Wahrscheinlichkeit, dass Peer i das Paket an j sendet. di sei derGrad des Knotens i . Ni sei die Nachbarschaftsmenge von Peer i .

pij :=

0 j /∈ Ni , i 6= j

1max(di ,dj )

j ∈ Ni , i 6= j

1−∑

j∈Ni

pij i = j

fuhrt fur Wege der Lange O(log n) zu uniformer Verteilung.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 40 / 54

Page 205: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Random WalksWahl des nachsten Peers

Entscheidene Frage

Wie wahlt man den nachsten Peer?

Metropolis-Hastings Random Walk

pij sei die Wahrscheinlichkeit, dass Peer i das Paket an j sendet.

di sei derGrad des Knotens i . Ni sei die Nachbarschaftsmenge von Peer i .

pij :=

0 j /∈ Ni , i 6= j

1max(di ,dj )

j ∈ Ni , i 6= j

1−∑

j∈Ni

pij i = j

fuhrt fur Wege der Lange O(log n) zu uniformer Verteilung.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 40 / 54

Page 206: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Random WalksWahl des nachsten Peers

Entscheidene Frage

Wie wahlt man den nachsten Peer?

Metropolis-Hastings Random Walk

pij sei die Wahrscheinlichkeit, dass Peer i das Paket an j sendet. di sei derGrad des Knotens i .

Ni sei die Nachbarschaftsmenge von Peer i .

pij :=

0 j /∈ Ni , i 6= j

1max(di ,dj )

j ∈ Ni , i 6= j

1−∑

j∈Ni

pij i = j

fuhrt fur Wege der Lange O(log n) zu uniformer Verteilung.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 40 / 54

Page 207: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Random WalksWahl des nachsten Peers

Entscheidene Frage

Wie wahlt man den nachsten Peer?

Metropolis-Hastings Random Walk

pij sei die Wahrscheinlichkeit, dass Peer i das Paket an j sendet. di sei derGrad des Knotens i . Ni sei die Nachbarschaftsmenge von Peer i .

pij :=

0 j /∈ Ni , i 6= j

1max(di ,dj )

j ∈ Ni , i 6= j

1−∑

j∈Ni

pij i = j

fuhrt fur Wege der Lange O(log n) zu uniformer Verteilung.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 40 / 54

Page 208: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Random WalksWahl des nachsten Peers

Entscheidene Frage

Wie wahlt man den nachsten Peer?

Metropolis-Hastings Random Walk

pij sei die Wahrscheinlichkeit, dass Peer i das Paket an j sendet. di sei derGrad des Knotens i . Ni sei die Nachbarschaftsmenge von Peer i .

pij :=

0 j /∈ Ni , i 6= j

1max(di ,dj )

j ∈ Ni , i 6= j

1−∑

j∈Ni

pij i = j

fuhrt fur Wege der Lange O(log n) zu uniformer Verteilung.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 40 / 54

Page 209: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Random WalksWahl des nachsten Peers

Entscheidene Frage

Wie wahlt man den nachsten Peer?

Metropolis-Hastings Random Walk

pij sei die Wahrscheinlichkeit, dass Peer i das Paket an j sendet. di sei derGrad des Knotens i . Ni sei die Nachbarschaftsmenge von Peer i .

pij :=

0 j /∈ Ni , i 6= j

1max(di ,dj )

j ∈ Ni , i 6= j

1−∑

j∈Ni

pij i = j

fuhrt fur Wege der Lange O(log n) zu uniformer Verteilung.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 40 / 54

Page 210: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Random WalksBeispiel (1)

Man betrachte das folgende Netzwerk:

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 41 / 54

Page 211: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Random WalksBeispiel (2)

Knoten mit Knotengrad beschriften:

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 42 / 54

Page 212: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Random WalksBeispiel (3)

Kanten mit 1/(Großter anliegender Knotengrad) beschriften:

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 43 / 54

Page 213: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Random WalksBeispiel (4)

Erganzen der jeweiligenGegenwahrscheinlichkeiten aufder Diagonalen ergibt dievollstandige Transitionsmatrix.

0 15

15

15

15

15 0

15

715 0 0 0 1

3 0

15 0 7

1513 0 0 0

15 0 1

3215

13 0 0

15 0 0 1

3715 0 0

15

13 0 0 0 2

1513

0 0 0 0 0 13

23

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 44 / 54

Page 214: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Random WalksBeispiel (5)

Was passiert fur langere Pfade?

M1 =

0% 20% 20% 20% 20% 20% 0%20% 46% 0% 0% 0% 33% 0%20% 0% 46% 33% 0% 0% 0%20% 0% 33% 13% 33% 0% 0%20% 0% 0% 33% 46% 0% 0%20% 33% 0% 0% 0% 13% 33%0% 0% 0% 0% 0% 33% 66%

Man sieht: Diese Initialisierung fuhrt fur hinreichend lange Wege zuuniformer Verteilung.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 45 / 54

Page 215: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Random WalksBeispiel (5)

Was passiert fur langere Pfade?

M2 =

20% 16% 16% 15% 16% 9% 6%16% 36% 4% 4% 4% 24% 11%16% 4% 36% 24% 15% 4% 0%15% 4% 24% 28% 24% 4% 0%16% 4% 15% 24% 36% 4% 0%9% 24% 4% 4% 4% 28% 26%6% 11% 0% 0% 0% 26% 55%

Man sieht: Diese Initialisierung fuhrt fur hinreichend lange Wege zuuniformer Verteilung.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 45 / 54

Page 216: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Random WalksBeispiel (5)

Was passiert fur langere Pfade?

M4 =

15% 14% 16% 16% 16% 12% 9%14% 23% 8% 8% 8% 20% 17%16% 8% 24% 22% 19% 6% 2%16% 8% 22% 22% 22% 6% 2%16% 8% 19% 22% 24% 6% 2%12% 20% 6% 6% 6% 22% 25%9% 17% 2% 2% 2% 25% 39%

Man sieht: Diese Initialisierung fuhrt fur hinreichend lange Wege zuuniformer Verteilung.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 45 / 54

Page 217: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Random WalksBeispiel (5)

Was passiert fur langere Pfade?

M8 =

14% 13% 15% 15% 15% 13% 11%13% 16% 11% 11% 11% 17% 18%15% 11% 18% 18% 18% 10% 7%15% 11% 18% 18% 18% 10% 7%15% 11% 18% 18% 18% 10% 7%13% 17% 10% 10% 10% 18% 21%11% 18% 7% 7% 7% 21% 26%

Man sieht: Diese Initialisierung fuhrt fur hinreichend lange Wege zuuniformer Verteilung.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 45 / 54

Page 218: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Random WalksBeispiel (5)

Was passiert fur langere Pfade?

M16 =

14% 14% 14% 14% 14% 13% 13%14% 14% 13% 13% 13% 15% 15%14% 13% 15% 15% 15% 13% 12%14% 13% 15% 15% 15% 13% 12%14% 13% 15% 15% 15% 13% 12%13% 15% 13% 13% 13% 15% 16%13% 15% 12% 12% 12% 16% 17%

Man sieht: Diese Initialisierung fuhrt fur hinreichend lange Wege zuuniformer Verteilung.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 45 / 54

Page 219: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Random WalksBeispiel (5)

Was passiert fur langere Pfade?

M32 =

14% 14% 14% 14% 14% 14% 14%14% 14% 14% 14% 14% 14% 14%14% 14% 14% 14% 14% 14% 14%14% 14% 14% 14% 14% 14% 14%14% 14% 14% 14% 14% 14% 14%14% 14% 14% 14% 14% 14% 14%14% 14% 14% 14% 14% 14% 14%

Man sieht: Diese Initialisierung fuhrt fur hinreichend lange Wege zuuniformer Verteilung.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 45 / 54

Page 220: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Ablauf: Formierung der Community

1 Große der Stichprobe berechnen

I N := N(p, q) =⌈

log(1−q)log(p)

2 Stichprobe auswertenI N zufallige Peers im Netzwerk kontaktieren (RandomWalk)I Ahnlichkeiten bestimmen, Maximum zur Akzeptanzgrenze G erklaren

3 Mitglieder identifizierenI Fluten der d-Nachbarschaft und KontaktaufnahmeI Massenhafte Ahnlichkeitsbestimmung

4 EinladenI Einladen aller Peers, die das Ahnlichkeitsmaß G uberschreiten.

5 ErweiternI Gegenseitiger Community-AustauschI Ahnlichkeit ist - wenigstens ein bisschen - transitiv.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 46 / 54

Page 221: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Ablauf: Formierung der Community

1 Große der Stichprobe berechnen

I N := N(p, q) =⌈

log(1−q)log(p)

⌉2 Stichprobe auswerten

I N zufallige Peers im Netzwerk kontaktieren (RandomWalk)I Ahnlichkeiten bestimmen, Maximum zur Akzeptanzgrenze G erklaren

3 Mitglieder identifizierenI Fluten der d-Nachbarschaft und KontaktaufnahmeI Massenhafte Ahnlichkeitsbestimmung

4 EinladenI Einladen aller Peers, die das Ahnlichkeitsmaß G uberschreiten.

5 ErweiternI Gegenseitiger Community-AustauschI Ahnlichkeit ist - wenigstens ein bisschen - transitiv.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 46 / 54

Page 222: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Ablauf: Formierung der Community

1 Große der Stichprobe berechnen

I N := N(p, q) =⌈

log(1−q)log(p)

⌉2 Stichprobe auswerten

I N zufallige Peers im Netzwerk kontaktieren (RandomWalk)I Ahnlichkeiten bestimmen, Maximum zur Akzeptanzgrenze G erklaren

3 Mitglieder identifizierenI Fluten der d-Nachbarschaft und KontaktaufnahmeI Massenhafte Ahnlichkeitsbestimmung

4 EinladenI Einladen aller Peers, die das Ahnlichkeitsmaß G uberschreiten.

5 ErweiternI Gegenseitiger Community-AustauschI Ahnlichkeit ist - wenigstens ein bisschen - transitiv.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 46 / 54

Page 223: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Ablauf: Formierung der Community

1 Große der Stichprobe berechnen

I N := N(p, q) =⌈

log(1−q)log(p)

⌉2 Stichprobe auswerten

I N zufallige Peers im Netzwerk kontaktieren (RandomWalk)I Ahnlichkeiten bestimmen, Maximum zur Akzeptanzgrenze G erklaren

3 Mitglieder identifizierenI Fluten der d-Nachbarschaft und KontaktaufnahmeI Massenhafte Ahnlichkeitsbestimmung

4 EinladenI Einladen aller Peers, die das Ahnlichkeitsmaß G uberschreiten.

5 ErweiternI Gegenseitiger Community-AustauschI Ahnlichkeit ist - wenigstens ein bisschen - transitiv.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 46 / 54

Page 224: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Ablauf: Formierung der Community

1 Große der Stichprobe berechnen

I N := N(p, q) =⌈

log(1−q)log(p)

⌉2 Stichprobe auswerten

I N zufallige Peers im Netzwerk kontaktieren (RandomWalk)I Ahnlichkeiten bestimmen, Maximum zur Akzeptanzgrenze G erklaren

3 Mitglieder identifizierenI Fluten der d-Nachbarschaft und KontaktaufnahmeI Massenhafte Ahnlichkeitsbestimmung

4 EinladenI Einladen aller Peers, die das Ahnlichkeitsmaß G uberschreiten.

5 ErweiternI Gegenseitiger Community-AustauschI Ahnlichkeit ist - wenigstens ein bisschen - transitiv.

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 46 / 54

Page 225: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Message Complexity (1)

1 Große der Stichprobe berechnenI N Randomwalks der Lange λ, 64 Bits pro PaketI 64 ∗ λ ∗ N

2 Stichprobe auswertenI N Peers in der StichprobeI Vektor hat d Komponenten, jeder Ciphertext benotigt 2 ∗ |µ| BitsI 2 ∗ |µ| ∗ (d + 1) ∗ N

3 Mitglieder identifizierenI Fluten des Netzwerks: M Peers erhalten α ≥ 1 Pakete, 64 Bit DatenI 64 ∗ α ∗MI Ahnlichkeitsbestimmung mit M PeersI 2 ∗ |µ| ∗ (d + 1) ∗M

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 47 / 54

Page 226: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Message Complexity (1)

1 Große der Stichprobe berechnenI N Randomwalks der Lange λ, 64 Bits pro PaketI 64 ∗ λ ∗ N

2 Stichprobe auswertenI N Peers in der StichprobeI Vektor hat d Komponenten, jeder Ciphertext benotigt 2 ∗ |µ| BitsI 2 ∗ |µ| ∗ (d + 1) ∗ N

3 Mitglieder identifizierenI Fluten des Netzwerks: M Peers erhalten α ≥ 1 Pakete, 64 Bit DatenI 64 ∗ α ∗MI Ahnlichkeitsbestimmung mit M PeersI 2 ∗ |µ| ∗ (d + 1) ∗M

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 47 / 54

Page 227: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Message Complexity (1)

1 Große der Stichprobe berechnenI N Randomwalks der Lange λ, 64 Bits pro PaketI 64 ∗ λ ∗ N

2 Stichprobe auswertenI N Peers in der StichprobeI Vektor hat d Komponenten, jeder Ciphertext benotigt 2 ∗ |µ| BitsI 2 ∗ |µ| ∗ (d + 1) ∗ N

3 Mitglieder identifizierenI Fluten des Netzwerks: M Peers erhalten α ≥ 1 Pakete, 64 Bit DatenI 64 ∗ α ∗MI Ahnlichkeitsbestimmung mit M PeersI 2 ∗ |µ| ∗ (d + 1) ∗M

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 47 / 54

Page 228: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Message Complexity (1)

1 Große der Stichprobe berechnenI N Randomwalks der Lange λ, 64 Bits pro PaketI 64 ∗ λ ∗ N

2 Stichprobe auswertenI N Peers in der StichprobeI Vektor hat d Komponenten, jeder Ciphertext benotigt 2 ∗ |µ| BitsI 2 ∗ |µ| ∗ (d + 1) ∗ N

3 Mitglieder identifizierenI Fluten des Netzwerks: M Peers erhalten α ≥ 1 Pakete, 64 Bit DatenI 64 ∗ α ∗M

I Ahnlichkeitsbestimmung mit M PeersI 2 ∗ |µ| ∗ (d + 1) ∗M

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 47 / 54

Page 229: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Message Complexity (1)

1 Große der Stichprobe berechnenI N Randomwalks der Lange λ, 64 Bits pro PaketI 64 ∗ λ ∗ N

2 Stichprobe auswertenI N Peers in der StichprobeI Vektor hat d Komponenten, jeder Ciphertext benotigt 2 ∗ |µ| BitsI 2 ∗ |µ| ∗ (d + 1) ∗ N

3 Mitglieder identifizierenI Fluten des Netzwerks: M Peers erhalten α ≥ 1 Pakete, 64 Bit DatenI 64 ∗ α ∗MI Ahnlichkeitsbestimmung mit M PeersI 2 ∗ |µ| ∗ (d + 1) ∗M

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 47 / 54

Page 230: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Message Complexity (2)

4 EinladenI Einladen von O Peers, P nehmen anI 8 ∗ (O + P) Bits

5 ErweiternI Gegenseitiger Community-Austausch mit P Peers, β durchschnittliche

Anzahl von Peers in erweiterten CommunitiesI 64 ∗ (P2 + P ∗ β)

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 48 / 54

Page 231: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Message Complexity (2)

4 EinladenI Einladen von O Peers, P nehmen anI 8 ∗ (O + P) Bits

5 ErweiternI Gegenseitiger Community-Austausch mit P Peers, β durchschnittliche

Anzahl von Peers in erweiterten CommunitiesI 64 ∗ (P2 + P ∗ β)

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 48 / 54

Page 232: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Message Complexity (3)

Uberblick

Aktion Formel (Bit) Byte kByte

Random Walk 64 ∗ λ ∗ N

12320 12

Skalarprodukt 2 ∗ |µ| ∗ (d + 1) ∗ (N + M)

513044 501

Netzwerk fluten 64 ∗ α ∗M

16000 15

Einladung 8 ∗ (O + P)

100 0

Austausch 64 ∗ (P2 + P ∗ β)

32000 31

Insgesamt∑

. . .

573464 560

Rechenbeispiel

p = q = 90% ⇒ N = 22λ = 70|µ| = 8, d = 250

M = 1000, α = 2O = P = 50, β = 30

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 49 / 54

Page 233: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Message Complexity (3)

Uberblick

Aktion Formel (Bit) Byte kByte

Random Walk 64 ∗ λ ∗ N

12320 12

Skalarprodukt 2 ∗ |µ| ∗ (d + 1) ∗ (N + M)

513044 501

Netzwerk fluten 64 ∗ α ∗M

16000 15

Einladung 8 ∗ (O + P)

100 0

Austausch 64 ∗ (P2 + P ∗ β)

32000 31

Insgesamt∑

. . .

573464 560

Rechenbeispiel

p = q = 90% ⇒ N = 22λ = 70|µ| = 8, d = 250

M = 1000, α = 2O = P = 50, β = 30

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 49 / 54

Page 234: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Message Complexity (3)

Uberblick

Aktion Formel (Bit) Byte kByte

Random Walk 64 ∗ λ ∗ N

12320 12

Skalarprodukt 2 ∗ |µ| ∗ (d + 1) ∗ (N + M)

513044 501

Netzwerk fluten 64 ∗ α ∗M

16000 15

Einladung 8 ∗ (O + P)

100 0

Austausch 64 ∗ (P2 + P ∗ β)

32000 31

Insgesamt∑

. . .

573464 560

Rechenbeispiel

p = q = 90% ⇒ N = 22λ = 70|µ| = 8, d = 250

M = 1000, α = 2O = P = 50, β = 30

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 49 / 54

Page 235: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Message Complexity (3)

Uberblick

Aktion Formel (Bit) Byte kByte

Random Walk 64 ∗ λ ∗ N

12320 12

Skalarprodukt 2 ∗ |µ| ∗ (d + 1) ∗ (N + M)

513044 501

Netzwerk fluten 64 ∗ α ∗M

16000 15

Einladung 8 ∗ (O + P)

100 0

Austausch 64 ∗ (P2 + P ∗ β)

32000 31

Insgesamt∑

. . .

573464 560

Rechenbeispiel

p = q = 90% ⇒ N = 22

λ = 70|µ| = 8, d = 250

M = 1000, α = 2O = P = 50, β = 30

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 49 / 54

Page 236: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Message Complexity (3)

Uberblick

Aktion Formel (Bit) Byte kByte

Random Walk 64 ∗ λ ∗ N

12320 12

Skalarprodukt 2 ∗ |µ| ∗ (d + 1) ∗ (N + M)

513044 501

Netzwerk fluten 64 ∗ α ∗M

16000 15

Einladung 8 ∗ (O + P)

100 0

Austausch 64 ∗ (P2 + P ∗ β)

32000 31

Insgesamt∑

. . .

573464 560

Rechenbeispiel

p = q = 90% ⇒ N = 22λ = 70

|µ| = 8, d = 250

M = 1000, α = 2O = P = 50, β = 30

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 49 / 54

Page 237: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Message Complexity (3)

Uberblick

Aktion Formel (Bit) Byte kByte

Random Walk 64 ∗ λ ∗ N

12320 12

Skalarprodukt 2 ∗ |µ| ∗ (d + 1) ∗ (N + M)

513044 501

Netzwerk fluten 64 ∗ α ∗M

16000 15

Einladung 8 ∗ (O + P)

100 0

Austausch 64 ∗ (P2 + P ∗ β)

32000 31

Insgesamt∑

. . .

573464 560

Rechenbeispiel

p = q = 90% ⇒ N = 22λ = 70|µ| = 8, d = 250

M = 1000, α = 2O = P = 50, β = 30

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 49 / 54

Page 238: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Message Complexity (3)

Uberblick

Aktion Formel (Bit) Byte kByte

Random Walk 64 ∗ λ ∗ N

12320 12

Skalarprodukt 2 ∗ |µ| ∗ (d + 1) ∗ (N + M)

513044 501

Netzwerk fluten 64 ∗ α ∗M

16000 15

Einladung 8 ∗ (O + P)

100 0

Austausch 64 ∗ (P2 + P ∗ β)

32000 31

Insgesamt∑

. . .

573464 560

Rechenbeispiel

p = q = 90% ⇒ N = 22λ = 70|µ| = 8, d = 250

M = 1000, α = 2

O = P = 50, β = 30

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 49 / 54

Page 239: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Message Complexity (3)

Uberblick

Aktion Formel (Bit) Byte kByte

Random Walk 64 ∗ λ ∗ N

12320 12

Skalarprodukt 2 ∗ |µ| ∗ (d + 1) ∗ (N + M)

513044 501

Netzwerk fluten 64 ∗ α ∗M

16000 15

Einladung 8 ∗ (O + P)

100 0

Austausch 64 ∗ (P2 + P ∗ β)

32000 31

Insgesamt∑

. . .

573464 560

Rechenbeispiel

p = q = 90% ⇒ N = 22λ = 70|µ| = 8, d = 250

M = 1000, α = 2O = P = 50, β = 30

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 49 / 54

Page 240: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Message Complexity (3)

Uberblick

Aktion Formel (Bit) Byte kByte

Random Walk 64 ∗ λ ∗ N 12320 12Skalarprodukt 2 ∗ |µ| ∗ (d + 1) ∗ (N + M) 513044 501Netzwerk fluten 64 ∗ α ∗M 16000 15Einladung 8 ∗ (O + P) 100 0Austausch 64 ∗ (P2 + P ∗ β) 32000 31Insgesamt

∑. . . 573464 560

Rechenbeispiel

p = q = 90% ⇒ N = 22λ = 70|µ| = 8, d = 250

M = 1000, α = 2O = P = 50, β = 30

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 49 / 54

Page 241: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Experimentelle ErgebnisseSchwellwert & Quantil

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 50 / 54

Page 242: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Experimentelle ErgebnisseSchwellwert & Quantil

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 50 / 54

Page 243: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Experimentelle ErgebnisseZeitaufwand & Privates Skalarprodukt

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 51 / 54

Page 244: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Experimentelle ErgebnisseZeitaufwand & Privates Skalarprodukt

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 51 / 54

Page 245: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Ubersicht

1 Peer-To-Peer Netzwerke

2 Verschiedene Ansatze fur P2P-Communities

3 Formierung einer P2P-Community nach Liu et al. (2006)

4 Zusammenfassung

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 52 / 54

Page 246: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Zusammenfassung

Zusammenfassung

1 Peer-To-Peer Netzwerke

I Client-Server VS Peer-To-PeerI 3 Arten von Peer-To-Peer Netzwerken

2 Peer-To-Peer Communities

I Verbesserte Suchzeit durch Gruppierung von Peers mitGemeinsamkeiten

F LinkanalyseF VertrauenF OntologieuberdeckungF Attributahnlichkeit

3 Peer-To-Peer Community nach Liu et al. (2006)

I basierend auf Profilvektoren, SkalarproduktI Fluten des Netzwerkes zur Identifikation von MitgliedernI Highlight 1: Private SkalarproduktberechnungI Highlight 2: Zufallsstichprobe zur Einschatzung des Grenzwertes

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 53 / 54

Page 247: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Zusammenfassung

Zusammenfassung

1 Peer-To-Peer NetzwerkeI Client-Server VS Peer-To-Peer

I 3 Arten von Peer-To-Peer Netzwerken

2 Peer-To-Peer Communities

I Verbesserte Suchzeit durch Gruppierung von Peers mitGemeinsamkeiten

F LinkanalyseF VertrauenF OntologieuberdeckungF Attributahnlichkeit

3 Peer-To-Peer Community nach Liu et al. (2006)

I basierend auf Profilvektoren, SkalarproduktI Fluten des Netzwerkes zur Identifikation von MitgliedernI Highlight 1: Private SkalarproduktberechnungI Highlight 2: Zufallsstichprobe zur Einschatzung des Grenzwertes

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 53 / 54

Page 248: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Zusammenfassung

Zusammenfassung

1 Peer-To-Peer NetzwerkeI Client-Server VS Peer-To-PeerI 3 Arten von Peer-To-Peer Netzwerken

2 Peer-To-Peer Communities

I Verbesserte Suchzeit durch Gruppierung von Peers mitGemeinsamkeiten

F LinkanalyseF VertrauenF OntologieuberdeckungF Attributahnlichkeit

3 Peer-To-Peer Community nach Liu et al. (2006)

I basierend auf Profilvektoren, SkalarproduktI Fluten des Netzwerkes zur Identifikation von MitgliedernI Highlight 1: Private SkalarproduktberechnungI Highlight 2: Zufallsstichprobe zur Einschatzung des Grenzwertes

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 53 / 54

Page 249: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Zusammenfassung

Zusammenfassung

1 Peer-To-Peer NetzwerkeI Client-Server VS Peer-To-PeerI 3 Arten von Peer-To-Peer Netzwerken

2 Peer-To-Peer Communities

I Verbesserte Suchzeit durch Gruppierung von Peers mitGemeinsamkeiten

F LinkanalyseF VertrauenF OntologieuberdeckungF Attributahnlichkeit

3 Peer-To-Peer Community nach Liu et al. (2006)

I basierend auf Profilvektoren, SkalarproduktI Fluten des Netzwerkes zur Identifikation von MitgliedernI Highlight 1: Private SkalarproduktberechnungI Highlight 2: Zufallsstichprobe zur Einschatzung des Grenzwertes

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 53 / 54

Page 250: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Zusammenfassung

Zusammenfassung

1 Peer-To-Peer NetzwerkeI Client-Server VS Peer-To-PeerI 3 Arten von Peer-To-Peer Netzwerken

2 Peer-To-Peer CommunitiesI Verbesserte Suchzeit durch Gruppierung von Peers mit

Gemeinsamkeiten

F LinkanalyseF VertrauenF OntologieuberdeckungF Attributahnlichkeit

3 Peer-To-Peer Community nach Liu et al. (2006)

I basierend auf Profilvektoren, SkalarproduktI Fluten des Netzwerkes zur Identifikation von MitgliedernI Highlight 1: Private SkalarproduktberechnungI Highlight 2: Zufallsstichprobe zur Einschatzung des Grenzwertes

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 53 / 54

Page 251: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Zusammenfassung

Zusammenfassung

1 Peer-To-Peer NetzwerkeI Client-Server VS Peer-To-PeerI 3 Arten von Peer-To-Peer Netzwerken

2 Peer-To-Peer CommunitiesI Verbesserte Suchzeit durch Gruppierung von Peers mit

GemeinsamkeitenF Linkanalyse

F VertrauenF OntologieuberdeckungF Attributahnlichkeit

3 Peer-To-Peer Community nach Liu et al. (2006)

I basierend auf Profilvektoren, SkalarproduktI Fluten des Netzwerkes zur Identifikation von MitgliedernI Highlight 1: Private SkalarproduktberechnungI Highlight 2: Zufallsstichprobe zur Einschatzung des Grenzwertes

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 53 / 54

Page 252: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Zusammenfassung

Zusammenfassung

1 Peer-To-Peer NetzwerkeI Client-Server VS Peer-To-PeerI 3 Arten von Peer-To-Peer Netzwerken

2 Peer-To-Peer CommunitiesI Verbesserte Suchzeit durch Gruppierung von Peers mit

GemeinsamkeitenF LinkanalyseF Vertrauen

F OntologieuberdeckungF Attributahnlichkeit

3 Peer-To-Peer Community nach Liu et al. (2006)

I basierend auf Profilvektoren, SkalarproduktI Fluten des Netzwerkes zur Identifikation von MitgliedernI Highlight 1: Private SkalarproduktberechnungI Highlight 2: Zufallsstichprobe zur Einschatzung des Grenzwertes

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 53 / 54

Page 253: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Zusammenfassung

Zusammenfassung

1 Peer-To-Peer NetzwerkeI Client-Server VS Peer-To-PeerI 3 Arten von Peer-To-Peer Netzwerken

2 Peer-To-Peer CommunitiesI Verbesserte Suchzeit durch Gruppierung von Peers mit

GemeinsamkeitenF LinkanalyseF VertrauenF Ontologieuberdeckung

F Attributahnlichkeit

3 Peer-To-Peer Community nach Liu et al. (2006)

I basierend auf Profilvektoren, SkalarproduktI Fluten des Netzwerkes zur Identifikation von MitgliedernI Highlight 1: Private SkalarproduktberechnungI Highlight 2: Zufallsstichprobe zur Einschatzung des Grenzwertes

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 53 / 54

Page 254: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Zusammenfassung

Zusammenfassung

1 Peer-To-Peer NetzwerkeI Client-Server VS Peer-To-PeerI 3 Arten von Peer-To-Peer Netzwerken

2 Peer-To-Peer CommunitiesI Verbesserte Suchzeit durch Gruppierung von Peers mit

GemeinsamkeitenF LinkanalyseF VertrauenF OntologieuberdeckungF Attributahnlichkeit

3 Peer-To-Peer Community nach Liu et al. (2006)

I basierend auf Profilvektoren, SkalarproduktI Fluten des Netzwerkes zur Identifikation von MitgliedernI Highlight 1: Private SkalarproduktberechnungI Highlight 2: Zufallsstichprobe zur Einschatzung des Grenzwertes

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 53 / 54

Page 255: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Zusammenfassung

Zusammenfassung

1 Peer-To-Peer NetzwerkeI Client-Server VS Peer-To-PeerI 3 Arten von Peer-To-Peer Netzwerken

2 Peer-To-Peer CommunitiesI Verbesserte Suchzeit durch Gruppierung von Peers mit

GemeinsamkeitenF LinkanalyseF VertrauenF OntologieuberdeckungF Attributahnlichkeit

3 Peer-To-Peer Community nach Liu et al. (2006)

I basierend auf Profilvektoren, SkalarproduktI Fluten des Netzwerkes zur Identifikation von MitgliedernI Highlight 1: Private SkalarproduktberechnungI Highlight 2: Zufallsstichprobe zur Einschatzung des Grenzwertes

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 53 / 54

Page 256: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Zusammenfassung

Zusammenfassung

1 Peer-To-Peer NetzwerkeI Client-Server VS Peer-To-PeerI 3 Arten von Peer-To-Peer Netzwerken

2 Peer-To-Peer CommunitiesI Verbesserte Suchzeit durch Gruppierung von Peers mit

GemeinsamkeitenF LinkanalyseF VertrauenF OntologieuberdeckungF Attributahnlichkeit

3 Peer-To-Peer Community nach Liu et al. (2006)I basierend auf Profilvektoren, Skalarprodukt

I Fluten des Netzwerkes zur Identifikation von MitgliedernI Highlight 1: Private SkalarproduktberechnungI Highlight 2: Zufallsstichprobe zur Einschatzung des Grenzwertes

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 53 / 54

Page 257: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Zusammenfassung

Zusammenfassung

1 Peer-To-Peer NetzwerkeI Client-Server VS Peer-To-PeerI 3 Arten von Peer-To-Peer Netzwerken

2 Peer-To-Peer CommunitiesI Verbesserte Suchzeit durch Gruppierung von Peers mit

GemeinsamkeitenF LinkanalyseF VertrauenF OntologieuberdeckungF Attributahnlichkeit

3 Peer-To-Peer Community nach Liu et al. (2006)I basierend auf Profilvektoren, SkalarproduktI Fluten des Netzwerkes zur Identifikation von Mitgliedern

I Highlight 1: Private SkalarproduktberechnungI Highlight 2: Zufallsstichprobe zur Einschatzung des Grenzwertes

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 53 / 54

Page 258: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Zusammenfassung

Zusammenfassung

1 Peer-To-Peer NetzwerkeI Client-Server VS Peer-To-PeerI 3 Arten von Peer-To-Peer Netzwerken

2 Peer-To-Peer CommunitiesI Verbesserte Suchzeit durch Gruppierung von Peers mit

GemeinsamkeitenF LinkanalyseF VertrauenF OntologieuberdeckungF Attributahnlichkeit

3 Peer-To-Peer Community nach Liu et al. (2006)I basierend auf Profilvektoren, SkalarproduktI Fluten des Netzwerkes zur Identifikation von MitgliedernI Highlight 1: Private Skalarproduktberechnung

I Highlight 2: Zufallsstichprobe zur Einschatzung des Grenzwertes

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 53 / 54

Page 259: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Zusammenfassung

Zusammenfassung

1 Peer-To-Peer NetzwerkeI Client-Server VS Peer-To-PeerI 3 Arten von Peer-To-Peer Netzwerken

2 Peer-To-Peer CommunitiesI Verbesserte Suchzeit durch Gruppierung von Peers mit

GemeinsamkeitenF LinkanalyseF VertrauenF OntologieuberdeckungF Attributahnlichkeit

3 Peer-To-Peer Community nach Liu et al. (2006)I basierend auf Profilvektoren, SkalarproduktI Fluten des Netzwerkes zur Identifikation von MitgliedernI Highlight 1: Private SkalarproduktberechnungI Highlight 2: Zufallsstichprobe zur Einschatzung des Grenzwertes

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 53 / 54

Page 260: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Zusammenfassung

Und: Echte Lebenshilfe!

Angenommen, du warst in 22 Restaurants.

Danach findest du ein Restaurant, in dem es dir noch besserschmeckt.

Dann kannst du ab heute mit 90%iger Sicherheit allen erzahlen, dasses sich um eines der Top-10% Restaurants weltweit handelt!

Immer vorausgesetzt: Du wahlst deine Restaurants zufalliggleichverteilt. ;-)

Danke fur die Aufmerksamkeit!

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 54 / 54

Page 261: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Zusammenfassung

Und: Echte Lebenshilfe!

Angenommen, du warst in 22 Restaurants.

Danach findest du ein Restaurant, in dem es dir noch besserschmeckt.

Dann kannst du ab heute mit 90%iger Sicherheit allen erzahlen, dasses sich um eines der Top-10% Restaurants weltweit handelt!

Immer vorausgesetzt: Du wahlst deine Restaurants zufalliggleichverteilt. ;-)

Danke fur die Aufmerksamkeit!

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 54 / 54

Page 262: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Zusammenfassung

Und: Echte Lebenshilfe!

Angenommen, du warst in 22 Restaurants.

Danach findest du ein Restaurant, in dem es dir noch besserschmeckt.

Dann kannst du ab heute mit 90%iger Sicherheit allen erzahlen, dasses sich um eines der Top-10% Restaurants weltweit handelt!

Immer vorausgesetzt: Du wahlst deine Restaurants zufalliggleichverteilt. ;-)

Danke fur die Aufmerksamkeit!

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 54 / 54

Page 263: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Zusammenfassung

Und: Echte Lebenshilfe!

Angenommen, du warst in 22 Restaurants.

Danach findest du ein Restaurant, in dem es dir noch besserschmeckt.

Dann kannst du ab heute mit 90%iger Sicherheit allen erzahlen, dasses sich um eines der Top-10% Restaurants weltweit handelt!

Immer vorausgesetzt: Du wahlst deine Restaurants zufalliggleichverteilt. ;-)

Danke fur die Aufmerksamkeit!

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 54 / 54

Page 264: Client-side Web Mining for Community Formation in Peer-To ...€¦ · Client-side Web Mining for Community Formation in Peer-To-Peer Environments Kun Liu, Kanishka Bhaduri, Kamalika

Zusammenfassung

Und: Echte Lebenshilfe!

Angenommen, du warst in 22 Restaurants.

Danach findest du ein Restaurant, in dem es dir noch besserschmeckt.

Dann kannst du ab heute mit 90%iger Sicherheit allen erzahlen, dasses sich um eines der Top-10% Restaurants weltweit handelt!

Immer vorausgesetzt: Du wahlst deine Restaurants zufalliggleichverteilt. ;-)

Danke fur die Aufmerksamkeit!

Hendrik Ewerlin (TU Dortmund) Web Mining & P2P-Communities 15.01.2008 54 / 54