Suchen und Finden im Collaborative WorkspaceI E ziente Suchstrategien werden immer wichtiger I...

27

Transcript of Suchen und Finden im Collaborative WorkspaceI E ziente Suchstrategien werden immer wichtiger I...

Page 1: Suchen und Finden im Collaborative WorkspaceI E ziente Suchstrategien werden immer wichtiger I Systembedingt können bei der Suche Daten verschwinden I Auf Geschwindigkeit optimierte

Gliederung Einführung Anwendungsszenarien Eigener Ansatz Ziele Zusammenfassung

Suchen und Finden im Collaborative Workspace

Raoul Pascal Pein

Department Informatik HAW Hamburg

24. November 2006

Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace

Page 2: Suchen und Finden im Collaborative WorkspaceI E ziente Suchstrategien werden immer wichtiger I Systembedingt können bei der Suche Daten verschwinden I Auf Geschwindigkeit optimierte

Gliederung Einführung Anwendungsszenarien Eigener Ansatz Ziele Zusammenfassung

Einführung

AnwendungsszenarienTextbasiert (�klassisch�)OrtsbezogenBildsucheLow-Level Ansatz

Eigener AnsatzArchitekturSkalierung

ZieleMasterprojekt

Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace

Page 3: Suchen und Finden im Collaborative WorkspaceI E ziente Suchstrategien werden immer wichtiger I Systembedingt können bei der Suche Daten verschwinden I Auf Geschwindigkeit optimierte

Gliederung Einführung Anwendungsszenarien Eigener Ansatz Ziele Zusammenfassung

Motivation

�Content that cannot be easily found is like content that does notexist, [...]. The easier it becomes to produce content, the faster theamount of content grows and the more complex the problem ofmanaging content gets.�

Fernando Pereira, Rob Koenen

Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace

Page 4: Suchen und Finden im Collaborative WorkspaceI E ziente Suchstrategien werden immer wichtiger I Systembedingt können bei der Suche Daten verschwinden I Auf Geschwindigkeit optimierte

Gliederung Einführung Anwendungsszenarien Eigener Ansatz Ziele Zusammenfassung

Problem im Collaborative Workspace

Wo sind die Informationen, die ich benötige?

Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace

Page 5: Suchen und Finden im Collaborative WorkspaceI E ziente Suchstrategien werden immer wichtiger I Systembedingt können bei der Suche Daten verschwinden I Auf Geschwindigkeit optimierte

Gliederung Einführung Anwendungsszenarien Eigener Ansatz Ziele Zusammenfassung

Textbasiert (�klassisch�)

Google Desktop Search

Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace

Page 6: Suchen und Finden im Collaborative WorkspaceI E ziente Suchstrategien werden immer wichtiger I Systembedingt können bei der Suche Daten verschwinden I Auf Geschwindigkeit optimierte

Gliederung Einführung Anwendungsszenarien Eigener Ansatz Ziele Zusammenfassung

Textbasiert (�klassisch�)

Beagle Desktop Search

Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace

Page 7: Suchen und Finden im Collaborative WorkspaceI E ziente Suchstrategien werden immer wichtiger I Systembedingt können bei der Suche Daten verschwinden I Auf Geschwindigkeit optimierte

Gliederung Einführung Anwendungsszenarien Eigener Ansatz Ziele Zusammenfassung

Ortsbezogen

GoogleMaps

Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace

Page 8: Suchen und Finden im Collaborative WorkspaceI E ziente Suchstrategien werden immer wichtiger I Systembedingt können bei der Suche Daten verschwinden I Auf Geschwindigkeit optimierte

Gliederung Einführung Anwendungsszenarien Eigener Ansatz Ziele Zusammenfassung

Ortsbezogen

Rescue

Arbeit mit interaktiven ÜbersichtskartenSuche von:

I SensordatenI PositionsabhängigI Überschreitung von

SchwellwertenI KamerasI Einsatzkräften

Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace

Page 9: Suchen und Finden im Collaborative WorkspaceI E ziente Suchstrategien werden immer wichtiger I Systembedingt können bei der Suche Daten verschwinden I Auf Geschwindigkeit optimierte

Gliederung Einführung Anwendungsszenarien Eigener Ansatz Ziele Zusammenfassung

Bildsuche

F-SpotTags, Timestamps

Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace

Page 10: Suchen und Finden im Collaborative WorkspaceI E ziente Suchstrategien werden immer wichtiger I Systembedingt können bei der Suche Daten verschwinden I Auf Geschwindigkeit optimierte

Gliederung Einführung Anwendungsszenarien Eigener Ansatz Ziele Zusammenfassung

Bildsuche

FlickrSets, Groups, Tags, Timestamps, Geotags

Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace

Page 11: Suchen und Finden im Collaborative WorkspaceI E ziente Suchstrategien werden immer wichtiger I Systembedingt können bei der Suche Daten verschwinden I Auf Geschwindigkeit optimierte

Gliederung Einführung Anwendungsszenarien Eigener Ansatz Ziele Zusammenfassung

Bildsuche

Content Based + Text/Tags

Benutzer kann Bilder in einem groÿen Bestand ansehen und auchgezielt nach diversen Kriterien suchen und �ltern

I SchlagworteI KategorienI InhaltsbasiertI Eigene Zeichnung

Zusätzliche Annotation währendder Benutzung denkbar

Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace

Page 12: Suchen und Finden im Collaborative WorkspaceI E ziente Suchstrategien werden immer wichtiger I Systembedingt können bei der Suche Daten verschwinden I Auf Geschwindigkeit optimierte

Gliederung Einführung Anwendungsszenarien Eigener Ansatz Ziele Zusammenfassung

Low-Level Ansatz

Virtuelle Verzeichnisse

I Auf Dateisystemebene (z.B. Samba Share)I Vorde�nierte Suchanfrage für ein VerzeichnisI Inhalt repräsentiert SuchergebnisI Für Anwendungen vollkommen transparentI Bei Änderungen der Datenbasis automatische Aktualisierung

Beispiel: �intelligente Wiedergabeliste� bei iTunes

Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace

Page 13: Suchen und Finden im Collaborative WorkspaceI E ziente Suchstrategien werden immer wichtiger I Systembedingt können bei der Suche Daten verschwinden I Auf Geschwindigkeit optimierte

Gliederung Einführung Anwendungsszenarien Eigener Ansatz Ziele Zusammenfassung

Architektur

Position im Gesamtprojekt

Presentation Layer(Philipp)

Blade Server

Persistence Layer(Mykhaylo)

RetrievalServer

Servlets

User Interface

FS

HTTP

FSNASetc.

DBIndex

FSNASetc.

Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace

Page 14: Suchen und Finden im Collaborative WorkspaceI E ziente Suchstrategien werden immer wichtiger I Systembedingt können bei der Suche Daten verschwinden I Auf Geschwindigkeit optimierte

Gliederung Einführung Anwendungsszenarien Eigener Ansatz Ziele Zusammenfassung

Architektur

Retrieval Architektur

Blade Server

RetrievalServer

Administration

Daemon

Beagle

notify

RetrievalClient

Servlets

externalUIexternal

UIexternalUI

Persis-tence

textual query

VirtualFolder

Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace

Page 15: Suchen und Finden im Collaborative WorkspaceI E ziente Suchstrategien werden immer wichtiger I Systembedingt können bei der Suche Daten verschwinden I Auf Geschwindigkeit optimierte

Gliederung Einführung Anwendungsszenarien Eigener Ansatz Ziele Zusammenfassung

Architektur

Besonderheiten beim Content Based Image Retrieval

I Suche nach Ähnlichkeit statt Identität (über Aspekte wieHistogramme, Formen, ...)

I Keine scharfen De�nitionen von Richtig und FalschI Suchanfragen können nur näherungsweise gestellt werdenI Ergebnisse sind �eher richtig� und �eher falsch�

I Qualität hängt stark von den zu Grunde liegenden Aspekten ab

Wie erhält man ein brauchbares Ranking?

Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace

Page 16: Suchen und Finden im Collaborative WorkspaceI E ziente Suchstrategien werden immer wichtiger I Systembedingt können bei der Suche Daten verschwinden I Auf Geschwindigkeit optimierte

Gliederung Einführung Anwendungsszenarien Eigener Ansatz Ziele Zusammenfassung

Architektur

Beispielaspekte

Universelle AspekteI SchlüsselwörterI SemantikI Kategorien/TagsI Erstellungsdatum/Zeitpunkt

Bildspezi�sche AspekteI HistogrammeI FormenI Wavelets

Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace

Page 17: Suchen und Finden im Collaborative WorkspaceI E ziente Suchstrategien werden immer wichtiger I Systembedingt können bei der Suche Daten verschwinden I Auf Geschwindigkeit optimierte

Gliederung Einführung Anwendungsszenarien Eigener Ansatz Ziele Zusammenfassung

Architektur

Berechnung der kombinierten Ähnlichkeit

rx =1∑n

f =1 w f ∗n∑

f =1w f ∗ r fx

n Anzahl der verschiedenen Bildaspektex Ein Bild aus dem Datenbestandrx �Ranking� (Ähnlichkeitsmaÿ) zwischen Anfrage und Bild xf �Feature� (Vergleichsaspekt)

w f Gewichtung eines Aspektsr fx Teilranking für Bild x bezogen auf Aspekt f

Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace

Page 18: Suchen und Finden im Collaborative WorkspaceI E ziente Suchstrategien werden immer wichtiger I Systembedingt können bei der Suche Daten verschwinden I Auf Geschwindigkeit optimierte

Gliederung Einführung Anwendungsszenarien Eigener Ansatz Ziele Zusammenfassung

Skalierung

Probleme bei der Skalierung

I Indexerstellung gerade bei hochaufösenden Bildern teuerI Eine perfekte Ähnlichkeitssuche benötigt einen kompletten

Scan über alle DatenätzeI Rankingaufwand steigt linear mit der Anzahl der Datensätze

Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace

Page 19: Suchen und Finden im Collaborative WorkspaceI E ziente Suchstrategien werden immer wichtiger I Systembedingt können bei der Suche Daten verschwinden I Auf Geschwindigkeit optimierte

Gliederung Einführung Anwendungsszenarien Eigener Ansatz Ziele Zusammenfassung

Skalierung

Load BalancingMehrere Server können sich Aufträge auf einfache Weise teilen:

IndexCache

IndexCache

IndexCache

RetrievalServer 1

Servlets

IndexBlackboard(e.g. Java Space)

RetrievalServer 2

RetrievalServer 3

SubQuery

SubQuery

SubResult

SubResult

Result

Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace

Page 20: Suchen und Finden im Collaborative WorkspaceI E ziente Suchstrategien werden immer wichtiger I Systembedingt können bei der Suche Daten verschwinden I Auf Geschwindigkeit optimierte

Gliederung Einführung Anwendungsszenarien Eigener Ansatz Ziele Zusammenfassung

Skalierung

Suchraum eingrenzen

ProblemÄhnlichkeitssuche lässt sich nicht direkt auf einfache Indexeabbilden. Praktisch jeder Vergleich liefert eine Ähnlichkeit > 0,0.Dadurch existieren keine klaren Grenzen, welches Objekt in dieErgebnismenge gehört.

Lösungsansätze

I ClusteringI Mehrdimensionale SuchbäumeI �harte� Filter (Keywords, Kategorien, Tags)

Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace

Page 21: Suchen und Finden im Collaborative WorkspaceI E ziente Suchstrategien werden immer wichtiger I Systembedingt können bei der Suche Daten verschwinden I Auf Geschwindigkeit optimierte

Gliederung Einführung Anwendungsszenarien Eigener Ansatz Ziele Zusammenfassung

Masterprojekt

Prototyp

I Integration in gemeinsames ProjektI Ähnlichkeitssuche über extrahierte AspekteI Textsuche extern z.B. über BeagleI Semantische Beziehungen z.B. über Topicmaps (TopicSEEK)I Automatische Erfassung von Meta/IndexdatenI Manuelle Erweiterung/Verfeinerung der IndexdatenI Samba-Shares als low-level Schnittstelle

Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace

Page 22: Suchen und Finden im Collaborative WorkspaceI E ziente Suchstrategien werden immer wichtiger I Systembedingt können bei der Suche Daten verschwinden I Auf Geschwindigkeit optimierte

Gliederung Einführung Anwendungsszenarien Eigener Ansatz Ziele Zusammenfassung

Masterprojekt

Risiken

I Evaluierung von CBIR generell schwierig, da es keineReferenzprojekte gibt

I Samba-Shares möglicherweise extrem aufwändig zuimplementieren

I O�en zugängliche Systeme können mit �Müll� ge�utet werden(z.B. Wikis)

Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace

Page 23: Suchen und Finden im Collaborative WorkspaceI E ziente Suchstrategien werden immer wichtiger I Systembedingt können bei der Suche Daten verschwinden I Auf Geschwindigkeit optimierte

Gliederung Einführung Anwendungsszenarien Eigener Ansatz Ziele Zusammenfassung

Masterprojekt

Evaluierung der kombinierten Suche

Möglicher Ablauf

1. Interne Auswahl eines zufälligen Bildes2. Suche mit vorgegebenen Parametern (Einzelaspekt,

Kombination)3. Präsentation der Ergebnismenge4. Versuchsperson selektiert Ergebnisse, die sie als ähnlich ansieht5. Nächstes Bild

Die erhaltenen Daten können bei ausreichend vielenTestdurchläufen statistisch ausgewertet werden.

Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace

Page 24: Suchen und Finden im Collaborative WorkspaceI E ziente Suchstrategien werden immer wichtiger I Systembedingt können bei der Suche Daten verschwinden I Auf Geschwindigkeit optimierte

Gliederung Einführung Anwendungsszenarien Eigener Ansatz Ziele Zusammenfassung

ZusammenfassungDie zu bewältigenden Datenmengen wachsen ständig, auch imprivaten Bereich

I Kurze Wege zu den Daten werden benötigtI Einfache hierarchische Dateisysteme reichen nicht mehr ausI E�ziente Suchstrategien werden immer wichtigerI Systembedingt können bei der Suche Daten �verschwinden�

I Auf Geschwindigkeit optimierte Indexe können inkonsistent seinI Inhaltbasierte Suche bei Bildern, etc. ist nicht eindeutig

�Content that cannot be easily found is like content that does notexist, [...].�

Fernando Pereira, Rob Koenen

Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace

Page 25: Suchen und Finden im Collaborative WorkspaceI E ziente Suchstrategien werden immer wichtiger I Systembedingt können bei der Suche Daten verschwinden I Auf Geschwindigkeit optimierte

Anhang

Weiterführende Literatur

Weiterführende Literatur I

J.P. Eakins, M.E. GrahamContent-based Image Retrieval. A Report to the JISCTechnology Applications ProgrammeUniversity of Northumbria at Newcastle, 1999

Andreas ChristensenSemantische Anreicherung von Suchanfragen auf Basis vonTopic MapsHochschule für Angewandte Wissenschaften Hamburg, 2005

Raoul Pascal PeinMulti-Modal Image Retrieval - A Feasibility StudyHochschule für Angewandte Wissenschaften Hamburg, 2006

Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace

Page 26: Suchen und Finden im Collaborative WorkspaceI E ziente Suchstrategien werden immer wichtiger I Systembedingt können bei der Suche Daten verschwinden I Auf Geschwindigkeit optimierte

Anhang

Weiterführende Literatur

Weiterführende Literatur II

I Beagle Desktop Searchhttp://beagle-project.org/Main_Page

I F-Spot - personal photo managementhttp://f-spot.org

I Flickrhttp://www.�ickr.com/

I Google Desktop Search / Google Mapshttp://www.google.com

I iTuneshttp://www.apple.com/de/itunes/jukebox/playlists.html

Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace

Page 27: Suchen und Finden im Collaborative WorkspaceI E ziente Suchstrategien werden immer wichtiger I Systembedingt können bei der Suche Daten verschwinden I Auf Geschwindigkeit optimierte

Anhang

Die letzte Seite

Die letzte Seite

Vielen Dank für die Aufmerksamkeit

Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgSuchen und Finden im Collaborative Workspace