Universität Bremen FB3 AG-Digitale Medien Diplomarbeit Abschlussvortrag A Social Tagging...

Post on 06-Apr-2016

214 views 0 download

Transcript of Universität Bremen FB3 AG-Digitale Medien Diplomarbeit Abschlussvortrag A Social Tagging...

Universität Bremen FB3 AG-Digitale Medien

DiplomarbeitAbschlussvortrag

A Social Tagging Environment forWeb Information Extraction

Diplomand: Wenyu CaiMatrikelnummer: 1621677E-Mail: jacob@tzi.deErstgutachter: Prof. Dr. Rainer MalakaZweitgutachter: Prof. Dr. Martin Gogolla

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 2

Einleitung

Motivation: Die relevanten strukturellen Daten einfach und

effektiv aus semi-strukturierten und unstrukturierten Web Dokumenten zu identifizieren, annotieren und extrahieren.

Fragestellung: Wie kann man mittels Social Tagging, Tag-

Empfehlungen und modernen Webtechniken eine Social Tagging Umgebung zu Unterstützung von Web Informationsextraktion aufbauen.

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 3

Einleitung

Ergebnis: Ein Social Tagging Umgebung wurde für Web

Information Extraction entworfen und implementiert und evaluiert.

Aufbau der Arbeit: Stand der Forschung Konzeption Umsetzung eines Tagging Systems für Web

Information Extraction Evaluation

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 4

Stand der Forschung

1. Social Software und Kollektive Intelligenz

2. Social/Collaborative Tagging

3. Semantische Annotation

4. Web Informationsextraktion

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 5

Social Software und Kollektive Intelligenz

Social Software„Internetbasierte Anwendungen, die Informations-, Identitäts- und Beziehungsmanagement in den (Teil-)Ö entlichkeiten ffhypertextueller und sozialer Netzwerke unterstützen“1.

Kollektive Intelligenz „Das Ganze ist mehr als die Summe seiner Teile“2.

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 6

Social/Collaborative Tagging

Social Tagging

• R = (r1,...,rl): Menge der verschlagworteten

Ressource.• T = (t1,...,tm): Menge der vergebenen Schlagwörter.• U = (u1,...,un) Menge der Nutzer.

FolksonomyDie Menge aller Tags, die einer bestimmten Ressource von allen Nutzers zugewiesen wurden.

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 7

Social/Collaborative Tagging

Folksonomy• „folk“ (Volk) und „taxonomy“ (Taxonomie, Klassifikation).• die Ordnung ist nicht vornher festgelegt.• keine formellen Beziehungen in einer Folksonomie.

• Vier zentrale Merkmale3:1. Tagging is done independently;2. Tags are aggregated.3. Relationships are inferred.4. Any inference methode is valid. (Tag-Zähler, Co-occurence, Clustering)

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 8

Social/Collaborative Tagging

Tag-Empfehlung

Algorithmus von Yahoo!4 Auffindung und Wiederfindung von Ressourcen Popularität, Co-ocurrence und Normalisierung von Tags

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 9

Social/Collaborative Tagging

Einsatzgebiete und Systembeispiele1. Managing Personal Information, z.B „Labels“ in Google Mail;2. Social Bookmarking, z.B del.icio.us;3. Collecting and Sharing Digital Objects, z.B YouTube, Flickr,

LibraryThing;4. E-Commerce, z.B Etsy, Buzzillions;5. Other Uses, z.B ESP Game, Diigo.

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 10

Social/Collaborative Tagging

Wesentliche Vorteile1. Erleichterung der Zusammenarbeit;2. Gewinnung von deskriptiven Metadaten;3. Verbesserung der Au ndbarkeitffi ;4. Erhöhung der Beteiligung;5. Erkennung der „Patterns“;6. Erweiterung existierender Klassifikation;7. Chance für Innovation.

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 11

Semantische Annotation

Professionelle Annotation manuell von von Experten; sehr teuer (zeit-/arbeitsintensiv).

Automatische Annotation automatisch durch computerlinguistische Methoden; nicht immer zutre end und oft nicht ausreichend.ff

Soziale Annotation Kollektive Intelligenz Vorteile von Social Tagging

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 12

Semantische Annotation

Taxonomie Hierarchie von Begri en (Über/Unterordnung);ff keine Beziehungen zwischen Elementen; aufwendig und wenig fexibel.

Ontologie formale Spezifikation einer Konzeptualisierung; ein Netz von Hierarchien mit logischer Beziehungen; teuer und wenig fexibel.

Folksonomie freies Tagging und kollektive Intelligenz; jedes Schlussfolgerungsverfahren ist zulässig.

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 13

Semantische Annotation

Web Annotation Inhaltsbezogene bzw, textuelle Annotation Strukturelle Annotation

Abbildung 2.9: Text-Markierung und Kontext-Menü in Thresher

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 14

Web Informationsextraktion

Informationsextraktion versucht nicht, die Input-Texte bzw. Quellen zu verstehen; analysiert Teilbereiche von jedem Dokument, welche

relevante Informationen enthalten

Wrapper eine Reihe von Extraktionsregeln und Code; manuell, überwacht (semi-automatischer) oder automatisch

generieren

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 15

Web Informationsextraktion

Klassifikationen

1. Sprachbasiert:• Programmiersprachen unterstützen Wrapper Generierung;• guten Programmierkenntnis notwendig;• sehr hohen manuellen Arbeitsaufwand.

2. HTML-basiert:• Analyse von HTML Dokumenten anhand der HTML-Struktur-

Eigenschaften;• unstrukturiert und semi-strukturiert; • täglich neu und ständig Veränderung.

3. NLP-basiert:• für freie, natürlichsprachliche Texte;• vollgrammatikalische Sätze erfordert;• nicht sehr gut für Web IE.

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 16

Web Informationsextraktion

Klassifikationen

4. Wrapper-Induction-basiert:• Extraktionsregeln werden von einer Reihe von

Trainingsbeispielen abgeleitet;• große Menge von Trainingsbeispieln erfordert.

5. Modell-basiert:• die Struktur von den Zielobjekten ist gegeben;• versucht Seiten zu finden, die eine absolut konforme

Teilstruktur dazu aufweisen;• große Menge von strukturierter Daten notwendig;

6. Ontologie-basiert:• die Techniken des Semantic Webs noch nicht sehr verbreitet;• zum aktuellen Zeitpunkt noch une zient.ffi

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 17

Web Informationsextraktion

Problemklassen Au nden der Webseiten durch das Verfolgen von Hyperlinks;ffi Unsaubere HTML-Struktur; Das Hyperlink Dilemma; Struktur Synthese Problem; Data Mapping und Data Integration Problem

Das „Deep Web“; Die Flexibilität des Webs.

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 18

Web Informationsextraktion

Nutzung visueller Information

Abbildung: Visuelle Extraktion Umgebung von Lixto

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 19

Zusammenfassung

manuelle und überwachte Bearbeitungen kostet sehr hohen Arbeitsaufwand

große Menge von Bespieldaten für verschiedene Informationsquellen sind notwendig;

häufige Veränderung von Webseiten erhöhtet Arbeitsaufwand.

Social Tagging als Hilfsmittel; Relevante Webinhalte werden durch kollektive menschliche

Intelligenz klassifiziert; immer aktuellen Metadaten werden von sozialer Annotation

erstellt.

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 20

Konzeption

Grundidee

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 21

Konzeption

Systemübersicht

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 22

Umsetzung

Analyse

Systementwurf

Implementierung

Nutzung des Tagging Systems

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 23

Analyse

Client-Server Architektur

Funktionale Anforderungen

Interaktionen und die strukturellen Informationen

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 24

Systementwurf

Systemarchithektur

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 25

Systementwurf

Clientseitige Interaktionen

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 26

Systementwurf

Serverseitige Funktionalitäten

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 27

Systementwurf

Datenmodelle

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 28

Implementierung

Technologieentscheidung

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 29

Implementierung

Klassenstruktur

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 30

Nutzung des Tagging Systems

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 31

Evaluation

Nutzungssituation

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 32

Evaluation

Empfehlungsanalyse

Schritte/Tags Preisinfo Computernetzwerke Buch PreisSchritt 1 1,0 0,33 0,60 5,0Schritt 2 0,5 0,33 0,10Schritt 3 0,41 0,51Schritt 4 0,18

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 33

Evaluation

Empfehlungsanalyse

Webseite Die empfohlenen Tags

W1(Fußball)

fussball, belgien, ergebnis, privatliga, tabelle

W2(Wettervorhersagen) wetter, bremen, temperatur, vorsage, wetterbericht

W3(Personendarstellung)

gernot (Personname), lebenslauf, adresse, telefon, karriere

W4(Bücher) preis, buch, computernetzwerke, preisinfo, wesley

W5(Filme)

007, schauspieler, film, superstar, connery

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 34

Fazit und Ausblick

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 35

Quelle

1. Jan Schmidt: Social Software: Onlinegestütztes Informations-, Identitäts- und Beziehungsmanagement. In: Forschungsjournal Neue Soziale Bewegungen, Nr 2/2006

2. von Aristoteles (384 - 322 v. Chr.), er war der erste große Systematiker unter den Philosophen und gilt als Begründer der abendländischen Wissenschaft.

3. Smith, G. (2008). Tagging: People-powered Metadata for the Social Web (1ed.). New Riders Press.

4. Xu, Z., Y. Fu, J. Mao, and D. Su (2006). Towards the semantic web: Collaborative tag suggestions. WWW 2006 Tagging Workshop Proceedings.

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 36

Vielen Dank!