Universität Bremen FB3 AG-Digitale Medien Diplomarbeit Abschlussvortrag A Social Tagging...

36
Universität Bremen FB3 AG-Digitale Medien Diplomarbeit Abschlussvortrag A Social Tagging Environment for Web Information Extraction Diplomand: Wenyu Cai Matrikelnummer: 1621677 E-Mail: [email protected] Erstgutachter: Prof. Dr. Rainer Malaka Zweitgutachter: Prof. Dr. Martin Gogolla

Transcript of Universität Bremen FB3 AG-Digitale Medien Diplomarbeit Abschlussvortrag A Social Tagging...

Page 1: Universität Bremen FB3 AG-Digitale Medien Diplomarbeit Abschlussvortrag A Social Tagging Environment for Web Information Extraction Diplomand: Wenyu Cai.

Universität Bremen FB3 AG-Digitale Medien

DiplomarbeitAbschlussvortrag

A Social Tagging Environment forWeb Information Extraction

Diplomand: Wenyu CaiMatrikelnummer: 1621677E-Mail: [email protected]: Prof. Dr. Rainer MalakaZweitgutachter: Prof. Dr. Martin Gogolla

Page 2: Universität Bremen FB3 AG-Digitale Medien Diplomarbeit Abschlussvortrag A Social Tagging Environment for Web Information Extraction Diplomand: Wenyu Cai.

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 2

Einleitung

Motivation: Die relevanten strukturellen Daten einfach und

effektiv aus semi-strukturierten und unstrukturierten Web Dokumenten zu identifizieren, annotieren und extrahieren.

Fragestellung: Wie kann man mittels Social Tagging, Tag-

Empfehlungen und modernen Webtechniken eine Social Tagging Umgebung zu Unterstützung von Web Informationsextraktion aufbauen.

Page 3: Universität Bremen FB3 AG-Digitale Medien Diplomarbeit Abschlussvortrag A Social Tagging Environment for Web Information Extraction Diplomand: Wenyu Cai.

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 3

Einleitung

Ergebnis: Ein Social Tagging Umgebung wurde für Web

Information Extraction entworfen und implementiert und evaluiert.

Aufbau der Arbeit: Stand der Forschung Konzeption Umsetzung eines Tagging Systems für Web

Information Extraction Evaluation

Page 4: Universität Bremen FB3 AG-Digitale Medien Diplomarbeit Abschlussvortrag A Social Tagging Environment for Web Information Extraction Diplomand: Wenyu Cai.

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 4

Stand der Forschung

1. Social Software und Kollektive Intelligenz

2. Social/Collaborative Tagging

3. Semantische Annotation

4. Web Informationsextraktion

Page 5: Universität Bremen FB3 AG-Digitale Medien Diplomarbeit Abschlussvortrag A Social Tagging Environment for Web Information Extraction Diplomand: Wenyu Cai.

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 5

Social Software und Kollektive Intelligenz

Social Software„Internetbasierte Anwendungen, die Informations-, Identitäts- und Beziehungsmanagement in den (Teil-)Ö entlichkeiten ffhypertextueller und sozialer Netzwerke unterstützen“1.

Kollektive Intelligenz „Das Ganze ist mehr als die Summe seiner Teile“2.

Page 6: Universität Bremen FB3 AG-Digitale Medien Diplomarbeit Abschlussvortrag A Social Tagging Environment for Web Information Extraction Diplomand: Wenyu Cai.

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 6

Social/Collaborative Tagging

Social Tagging

• R = (r1,...,rl): Menge der verschlagworteten

Ressource.• T = (t1,...,tm): Menge der vergebenen Schlagwörter.• U = (u1,...,un) Menge der Nutzer.

FolksonomyDie Menge aller Tags, die einer bestimmten Ressource von allen Nutzers zugewiesen wurden.

Page 7: Universität Bremen FB3 AG-Digitale Medien Diplomarbeit Abschlussvortrag A Social Tagging Environment for Web Information Extraction Diplomand: Wenyu Cai.

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 7

Social/Collaborative Tagging

Folksonomy• „folk“ (Volk) und „taxonomy“ (Taxonomie, Klassifikation).• die Ordnung ist nicht vornher festgelegt.• keine formellen Beziehungen in einer Folksonomie.

• Vier zentrale Merkmale3:1. Tagging is done independently;2. Tags are aggregated.3. Relationships are inferred.4. Any inference methode is valid. (Tag-Zähler, Co-occurence, Clustering)

Page 8: Universität Bremen FB3 AG-Digitale Medien Diplomarbeit Abschlussvortrag A Social Tagging Environment for Web Information Extraction Diplomand: Wenyu Cai.

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 8

Social/Collaborative Tagging

Tag-Empfehlung

Algorithmus von Yahoo!4 Auffindung und Wiederfindung von Ressourcen Popularität, Co-ocurrence und Normalisierung von Tags

Page 9: Universität Bremen FB3 AG-Digitale Medien Diplomarbeit Abschlussvortrag A Social Tagging Environment for Web Information Extraction Diplomand: Wenyu Cai.

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 9

Social/Collaborative Tagging

Einsatzgebiete und Systembeispiele1. Managing Personal Information, z.B „Labels“ in Google Mail;2. Social Bookmarking, z.B del.icio.us;3. Collecting and Sharing Digital Objects, z.B YouTube, Flickr,

LibraryThing;4. E-Commerce, z.B Etsy, Buzzillions;5. Other Uses, z.B ESP Game, Diigo.

Page 10: Universität Bremen FB3 AG-Digitale Medien Diplomarbeit Abschlussvortrag A Social Tagging Environment for Web Information Extraction Diplomand: Wenyu Cai.

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 10

Social/Collaborative Tagging

Wesentliche Vorteile1. Erleichterung der Zusammenarbeit;2. Gewinnung von deskriptiven Metadaten;3. Verbesserung der Au ndbarkeitffi ;4. Erhöhung der Beteiligung;5. Erkennung der „Patterns“;6. Erweiterung existierender Klassifikation;7. Chance für Innovation.

Page 11: Universität Bremen FB3 AG-Digitale Medien Diplomarbeit Abschlussvortrag A Social Tagging Environment for Web Information Extraction Diplomand: Wenyu Cai.

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 11

Semantische Annotation

Professionelle Annotation manuell von von Experten; sehr teuer (zeit-/arbeitsintensiv).

Automatische Annotation automatisch durch computerlinguistische Methoden; nicht immer zutre end und oft nicht ausreichend.ff

Soziale Annotation Kollektive Intelligenz Vorteile von Social Tagging

Page 12: Universität Bremen FB3 AG-Digitale Medien Diplomarbeit Abschlussvortrag A Social Tagging Environment for Web Information Extraction Diplomand: Wenyu Cai.

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 12

Semantische Annotation

Taxonomie Hierarchie von Begri en (Über/Unterordnung);ff keine Beziehungen zwischen Elementen; aufwendig und wenig fexibel.

Ontologie formale Spezifikation einer Konzeptualisierung; ein Netz von Hierarchien mit logischer Beziehungen; teuer und wenig fexibel.

Folksonomie freies Tagging und kollektive Intelligenz; jedes Schlussfolgerungsverfahren ist zulässig.

Page 13: Universität Bremen FB3 AG-Digitale Medien Diplomarbeit Abschlussvortrag A Social Tagging Environment for Web Information Extraction Diplomand: Wenyu Cai.

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 13

Semantische Annotation

Web Annotation Inhaltsbezogene bzw, textuelle Annotation Strukturelle Annotation

Abbildung 2.9: Text-Markierung und Kontext-Menü in Thresher

Page 14: Universität Bremen FB3 AG-Digitale Medien Diplomarbeit Abschlussvortrag A Social Tagging Environment for Web Information Extraction Diplomand: Wenyu Cai.

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 14

Web Informationsextraktion

Informationsextraktion versucht nicht, die Input-Texte bzw. Quellen zu verstehen; analysiert Teilbereiche von jedem Dokument, welche

relevante Informationen enthalten

Wrapper eine Reihe von Extraktionsregeln und Code; manuell, überwacht (semi-automatischer) oder automatisch

generieren

Page 15: Universität Bremen FB3 AG-Digitale Medien Diplomarbeit Abschlussvortrag A Social Tagging Environment for Web Information Extraction Diplomand: Wenyu Cai.

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 15

Web Informationsextraktion

Klassifikationen

1. Sprachbasiert:• Programmiersprachen unterstützen Wrapper Generierung;• guten Programmierkenntnis notwendig;• sehr hohen manuellen Arbeitsaufwand.

2. HTML-basiert:• Analyse von HTML Dokumenten anhand der HTML-Struktur-

Eigenschaften;• unstrukturiert und semi-strukturiert; • täglich neu und ständig Veränderung.

3. NLP-basiert:• für freie, natürlichsprachliche Texte;• vollgrammatikalische Sätze erfordert;• nicht sehr gut für Web IE.

Page 16: Universität Bremen FB3 AG-Digitale Medien Diplomarbeit Abschlussvortrag A Social Tagging Environment for Web Information Extraction Diplomand: Wenyu Cai.

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 16

Web Informationsextraktion

Klassifikationen

4. Wrapper-Induction-basiert:• Extraktionsregeln werden von einer Reihe von

Trainingsbeispielen abgeleitet;• große Menge von Trainingsbeispieln erfordert.

5. Modell-basiert:• die Struktur von den Zielobjekten ist gegeben;• versucht Seiten zu finden, die eine absolut konforme

Teilstruktur dazu aufweisen;• große Menge von strukturierter Daten notwendig;

6. Ontologie-basiert:• die Techniken des Semantic Webs noch nicht sehr verbreitet;• zum aktuellen Zeitpunkt noch une zient.ffi

Page 17: Universität Bremen FB3 AG-Digitale Medien Diplomarbeit Abschlussvortrag A Social Tagging Environment for Web Information Extraction Diplomand: Wenyu Cai.

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 17

Web Informationsextraktion

Problemklassen Au nden der Webseiten durch das Verfolgen von Hyperlinks;ffi Unsaubere HTML-Struktur; Das Hyperlink Dilemma; Struktur Synthese Problem; Data Mapping und Data Integration Problem

Das „Deep Web“; Die Flexibilität des Webs.

Page 18: Universität Bremen FB3 AG-Digitale Medien Diplomarbeit Abschlussvortrag A Social Tagging Environment for Web Information Extraction Diplomand: Wenyu Cai.

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 18

Web Informationsextraktion

Nutzung visueller Information

Abbildung: Visuelle Extraktion Umgebung von Lixto

Page 19: Universität Bremen FB3 AG-Digitale Medien Diplomarbeit Abschlussvortrag A Social Tagging Environment for Web Information Extraction Diplomand: Wenyu Cai.

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 19

Zusammenfassung

manuelle und überwachte Bearbeitungen kostet sehr hohen Arbeitsaufwand

große Menge von Bespieldaten für verschiedene Informationsquellen sind notwendig;

häufige Veränderung von Webseiten erhöhtet Arbeitsaufwand.

Social Tagging als Hilfsmittel; Relevante Webinhalte werden durch kollektive menschliche

Intelligenz klassifiziert; immer aktuellen Metadaten werden von sozialer Annotation

erstellt.

Page 20: Universität Bremen FB3 AG-Digitale Medien Diplomarbeit Abschlussvortrag A Social Tagging Environment for Web Information Extraction Diplomand: Wenyu Cai.

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 20

Konzeption

Grundidee

Page 21: Universität Bremen FB3 AG-Digitale Medien Diplomarbeit Abschlussvortrag A Social Tagging Environment for Web Information Extraction Diplomand: Wenyu Cai.

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 21

Konzeption

Systemübersicht

Page 22: Universität Bremen FB3 AG-Digitale Medien Diplomarbeit Abschlussvortrag A Social Tagging Environment for Web Information Extraction Diplomand: Wenyu Cai.

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 22

Umsetzung

Analyse

Systementwurf

Implementierung

Nutzung des Tagging Systems

Page 23: Universität Bremen FB3 AG-Digitale Medien Diplomarbeit Abschlussvortrag A Social Tagging Environment for Web Information Extraction Diplomand: Wenyu Cai.

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 23

Analyse

Client-Server Architektur

Funktionale Anforderungen

Interaktionen und die strukturellen Informationen

Page 24: Universität Bremen FB3 AG-Digitale Medien Diplomarbeit Abschlussvortrag A Social Tagging Environment for Web Information Extraction Diplomand: Wenyu Cai.

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 24

Systementwurf

Systemarchithektur

Page 25: Universität Bremen FB3 AG-Digitale Medien Diplomarbeit Abschlussvortrag A Social Tagging Environment for Web Information Extraction Diplomand: Wenyu Cai.

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 25

Systementwurf

Clientseitige Interaktionen

Page 26: Universität Bremen FB3 AG-Digitale Medien Diplomarbeit Abschlussvortrag A Social Tagging Environment for Web Information Extraction Diplomand: Wenyu Cai.

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 26

Systementwurf

Serverseitige Funktionalitäten

Page 27: Universität Bremen FB3 AG-Digitale Medien Diplomarbeit Abschlussvortrag A Social Tagging Environment for Web Information Extraction Diplomand: Wenyu Cai.

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 27

Systementwurf

Datenmodelle

Page 28: Universität Bremen FB3 AG-Digitale Medien Diplomarbeit Abschlussvortrag A Social Tagging Environment for Web Information Extraction Diplomand: Wenyu Cai.

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 28

Implementierung

Technologieentscheidung

Page 29: Universität Bremen FB3 AG-Digitale Medien Diplomarbeit Abschlussvortrag A Social Tagging Environment for Web Information Extraction Diplomand: Wenyu Cai.

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 29

Implementierung

Klassenstruktur

Page 30: Universität Bremen FB3 AG-Digitale Medien Diplomarbeit Abschlussvortrag A Social Tagging Environment for Web Information Extraction Diplomand: Wenyu Cai.

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 30

Nutzung des Tagging Systems

Page 31: Universität Bremen FB3 AG-Digitale Medien Diplomarbeit Abschlussvortrag A Social Tagging Environment for Web Information Extraction Diplomand: Wenyu Cai.

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 31

Evaluation

Nutzungssituation

Page 32: Universität Bremen FB3 AG-Digitale Medien Diplomarbeit Abschlussvortrag A Social Tagging Environment for Web Information Extraction Diplomand: Wenyu Cai.

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 32

Evaluation

Empfehlungsanalyse

Schritte/Tags Preisinfo Computernetzwerke Buch PreisSchritt 1 1,0 0,33 0,60 5,0Schritt 2 0,5 0,33 0,10Schritt 3 0,41 0,51Schritt 4 0,18

Page 33: Universität Bremen FB3 AG-Digitale Medien Diplomarbeit Abschlussvortrag A Social Tagging Environment for Web Information Extraction Diplomand: Wenyu Cai.

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 33

Evaluation

Empfehlungsanalyse

Webseite Die empfohlenen Tags

W1(Fußball)

fussball, belgien, ergebnis, privatliga, tabelle

W2(Wettervorhersagen) wetter, bremen, temperatur, vorsage, wetterbericht

W3(Personendarstellung)

gernot (Personname), lebenslauf, adresse, telefon, karriere

W4(Bücher) preis, buch, computernetzwerke, preisinfo, wesley

W5(Filme)

007, schauspieler, film, superstar, connery

Page 34: Universität Bremen FB3 AG-Digitale Medien Diplomarbeit Abschlussvortrag A Social Tagging Environment for Web Information Extraction Diplomand: Wenyu Cai.

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 34

Fazit und Ausblick

Page 35: Universität Bremen FB3 AG-Digitale Medien Diplomarbeit Abschlussvortrag A Social Tagging Environment for Web Information Extraction Diplomand: Wenyu Cai.

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 35

Quelle

1. Jan Schmidt: Social Software: Onlinegestütztes Informations-, Identitäts- und Beziehungsmanagement. In: Forschungsjournal Neue Soziale Bewegungen, Nr 2/2006

2. von Aristoteles (384 - 322 v. Chr.), er war der erste große Systematiker unter den Philosophen und gilt als Begründer der abendländischen Wissenschaft.

3. Smith, G. (2008). Tagging: People-powered Metadata for the Social Web (1ed.). New Riders Press.

4. Xu, Z., Y. Fu, J. Mao, and D. Su (2006). Towards the semantic web: Collaborative tag suggestions. WWW 2006 Tagging Workshop Proceedings.

Page 36: Universität Bremen FB3 AG-Digitale Medien Diplomarbeit Abschlussvortrag A Social Tagging Environment for Web Information Extraction Diplomand: Wenyu Cai.

Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka

DiplomarbeitAbschlussvortrag 36

Vielen Dank!