Download - Status quo und zukunft von aa ns.pdf

Transcript
Page 1: Status quo und zukunft von aa ns.pdf

Vortrag

Status Quo und Zukunft von AANs

Referent: Mirko Bettermann

Page 2: Status quo und zukunft von aa ns.pdf

29.11.10 Status Quo und Zukunft von AANs 2

Inhalt

Artefakt-Akteur-NetzwerkeNetzwerk- und DokumentanalyseEingesetzte TechnologienStatus Quo, Probleme, Lösungen

Page 3: Status quo und zukunft von aa ns.pdf

29.11.10 Status Quo und Zukunft von AANs 3

Akteur-Netzwerk

Soziales Netzwerk: Eine Menge von Beziehungen, die zwischen Personen bestehen, und Rückschlüsse auf das Sozialverhalten der Personen erlaubenBeispiele: XING, studiVZAkteur-Netzwerk: Abstraktion eines Sozialen NetzwerkesBeziehungen zwischen Akteuren werden als ACT2 Beziehungen bezeichnetMögliches Vokabular: Friend-Of-A-Friend

Page 4: Status quo und zukunft von aa ns.pdf

29.11.10 Status Quo und Zukunft von AANs 4

Artefakt-Netzwerk

Netzwerk von Artefakten die miteinander in Beziehung stehenArtefakt: Verallgemeinerung des DokumentbegriffsBeziehungen zwischen Artefakten werden als ART2 Beziehungen bezeichnetMögliche Vokabulare:

Semantically-Interlinked Online Communities (SIOC)Dublin Core Metadata Initiative (DCMI)

Page 5: Status quo und zukunft von aa ns.pdf

29.11.10 Status Quo und Zukunft von AANs 5

Artefact-Akteur-Netzwerke (1)

Konsolidierung von Artefakt-Netzwerken und Akteur-NetzwerkenErlauben von zusätzlichen Actor-Artefact und Artefact-Actor-Beziehungen

Page 6: Status quo und zukunft von aa ns.pdf

29.11.10 Status Quo und Zukunft von AANs 6

Artefact-Akteur-Netzwerke (2)

Page 7: Status quo und zukunft von aa ns.pdf

29.11.10 Status Quo und Zukunft von AANs 7

Überblick

Artefakt-Akteur-NetzwerkeNetzwerk- und DokumentanalyseEingesetzte TechnologienStatus Quo, Probleme, Lösungen

Page 8: Status quo und zukunft von aa ns.pdf

29.11.10 Status Quo und Zukunft von AANs 8

Netzwerkanalyse (1)

Die Dichte gibt die Stärke der Verbundenheit eines Netzwerkes an

Die Zentralität eines Knotens gibt an wie stark dieser in das Gesamtnetzwerk eingebunden ist

Degree-ZentralitätBetweenness-Zentralität

Dichte= Anzahl KantenAnzahl möglicherKanten

Page 9: Status quo und zukunft von aa ns.pdf

29.11.10 Status Quo und Zukunft von AANs 9

Netzwerkanalyse (2)

Degree-ZentralitätEin Knoten ist zentral wenn er mit möglichst vielen anderen Knoten in Beziehung steht

Betweenness-ZentralitätEin Knoten ist zentral wenn er auf vielen kürzesten Wegen zwischen Knotenpaaren vorkommt

Page 10: Status quo und zukunft von aa ns.pdf

29.11.10 Status Quo und Zukunft von AANs 10

Netzwerkanalyse (3)

Page 11: Status quo und zukunft von aa ns.pdf

29.11.10 Status Quo und Zukunft von AANs 11

Dokumentanalyse (1)

Jedes Dokument wird durch eine Menge von Schlüsselwörtern charakterisiertDie Relevanz eines Schlüsselwortes sagt aus wie gut dieses das jeweilige Dokument beschreibtSchlüsselwörter können entweder durch Benutzer oder durch Dienste bestimmt werdenRelevanz=Termfrequenz⋅Inverse Dokumentfrequenz

Page 12: Status quo und zukunft von aa ns.pdf

29.11.10 Status Quo und Zukunft von AANs 12

Dokumentanalyse (2)

SemSim-Funktion zur Berechnung der Ähnlichkeit zweier Texte A und BConSim berechnet die Ähnlichkeit der Relevanzen eines Schlüsselwortes das A und B beschreibt

Page 13: Status quo und zukunft von aa ns.pdf

29.11.10 Status Quo und Zukunft von AANs 13

Dokumentanalyse (3)

SemSim gewichtet die Ähnlichkeit der Relevanzen mit dem Wert der kleineren RelevanzAnschließendes aufsummieren für alle gemeinsamen SchlüsselwörterQuadrieren des ConSim bewirkt GlättungSemSim ist bereits implementiert – weitere Funktionen zur Ähnlichkeitsberechnung sind in Arbeit

Page 14: Status quo und zukunft von aa ns.pdf

29.11.10 Status Quo und Zukunft von AANs 14

Dokumentanalyse (4)

Page 15: Status quo und zukunft von aa ns.pdf

29.11.10 Status Quo und Zukunft von AANs 15

Überblick

Artefakt-Akteur-NetzwerkeNetzwerk- und DokumentanalyseEingesetzte TechnologienStatus Quo, Probleme, Lösungen

Page 16: Status quo und zukunft von aa ns.pdf

29.11.10 Status Quo und Zukunft von AANs 16

Ressource Description Framework (1)

Standard zur Beschreibung von Ressourcen des InternetAusdehnung auf Beschreibung von durch URI bestimmbare Entitäten (z. B. Katalogdienste, Feeds, Dateien)RDF ist durch Maschinen auswertbar und durchsuchbar (SPARQL)RDF Datenmodell basiert auf gerichteten Graphen

Page 17: Status quo und zukunft von aa ns.pdf

29.11.10 Status Quo und Zukunft von AANs 17

Ressource Description Framework (2)

Daten sind wahre Aussagen über RessourcenAussagen bestehen aus Tripel Subjekt, Prädikat und ObjektSubjekt: Die Ressource über die eine Aussage getroffen wirdPrädikat: Die Eigenschaft des SubjektsObjekt: Das Argument des PrädikatsDie Menge aller Aussagen bildet einen gerichteten Graph

Page 18: Status quo und zukunft von aa ns.pdf

29.11.10 Status Quo und Zukunft von AANs 18

OWL

Formale Beschreibungssprachen vom W3C Hier zur Definition von Ontologien (RDF-Vokabulare) eingesetztBasiert technisch gesehen auf der RDF-Syntax, kann aber wesentlich mehr

VererbungInverse, Symmetrie, Transitivität, KardinalitätenPrädikatenlogik

Page 19: Status quo und zukunft von aa ns.pdf

29.11.10 Status Quo und Zukunft von AANs 19

Ontologie

Page 20: Status quo und zukunft von aa ns.pdf

29.11.10 Status Quo und Zukunft von AANs 20

Jena

Java basiertes Open Source Framework für Semantische NetzeSpeichern und Laden von Graphen in RDF NotationUnterstützt OWL-Ontologien und bietet automatische InferenzbildungSchnelles Einfügen und Wiederfinden von RDF TripelnErmöglicht abrufen der Daten durch SPARQL

Page 21: Status quo und zukunft von aa ns.pdf

29.11.10 Status Quo und Zukunft von AANs 21

OSGi

Open Services Gateway initiative: Hardware­unabhängige dynamische SoftwareplattformErleichtert die Implementierung von Komponenten-basierter SoftwareErmöglicht das Einbinden neuer Komponenten zur Laufzeit und ohne CodeänderungKommunikation der Komponenten durch OSGi-Dienste

Page 22: Status quo und zukunft von aa ns.pdf

29.11.10 Status Quo und Zukunft von AANs 22

Überblick

Artefakt-Akteur-NetzwerkeNetzwerk- und DokumentanalyseEingesetzte TechnologienStatus Quo, Probleme, Lösungen

Page 23: Status quo und zukunft von aa ns.pdf

29.11.10 Status Quo und Zukunft von AANs 23

Ablauf (1)

Page 24: Status quo und zukunft von aa ns.pdf

29.11.10 Status Quo und Zukunft von AANs 24

Ablauf (2)

Page 25: Status quo und zukunft von aa ns.pdf

29.11.10 Status Quo und Zukunft von AANs 25

Crawler/CrawlerManager (1)

Empfangen Content-Analyse AufträgeDer CrawlerManager nutzt die Dienste des Crawlers und bietet selbst Funktionen auf höherer EbeneDer Crawler bekommt die URI des zu analysierenden Artefaktes und setzt die Verarbeitungskette in Gang

AccessorMimeTyperParser

Page 26: Status quo und zukunft von aa ns.pdf

29.11.10 Status Quo und Zukunft von AANs 26

Ablauf (3)

Page 27: Status quo und zukunft von aa ns.pdf

29.11.10 Status Quo und Zukunft von AANs 27

Crawler/CrawlerManager (2)

Jeder Crawl-Auftrag wird in einen eigenständigen Thread ausgeführtCrawler erzeugt CrawlerDataObjectProblem:

Bei Systemausfall geht das CrawlerDataObject und damit alle während des Jobs gewonnenen Daten verloren

Lösung:Sicherung der CrawlerDataObjects in einer Datenbank

Page 28: Status quo und zukunft von aa ns.pdf

29.11.10 Status Quo und Zukunft von AANs 28

Ablauf (4)

Page 29: Status quo und zukunft von aa ns.pdf

29.11.10 Status Quo und Zukunft von AANs 29

Parser

Sucht in den Ressourcen nach semantischen RelationenSchreibt in den Jena DataStore und den FullTextStoreProblem:

Zu jeder Ressourcen URI kann ein Volltext abgelegt werden. Abstract oder Kompletter Volltext möglich.

Lösung:Kennzeichnung durch zusätzlichen Parameter

Page 30: Status quo und zukunft von aa ns.pdf

29.11.10 Status Quo und Zukunft von AANs 30

Jena DataStore

Speichert vom Parser erzeugte RDF-Tripel die der Ontologie genügenProbleme:

Inferenzen werden erst nach konkreten Anfragen durchgeführtInferenzen werden nicht persistent gespeichert

Lösung:Inferenzen durchführen wenn neue Tripel gespeichert werden und persistent speichern

Page 31: Status quo und zukunft von aa ns.pdf

29.11.10 Status Quo und Zukunft von AANs 31

FullTextLucene

Konkrete Implementierung des FullTextStore und RelevanceStore in einer KomponenteBestimmung von Schlüsselwörtern erfordert die Speicherung von VolltextSpeichert die Relevanzen von SchlüsselwörternInformiert die TextAnalyser und die ReferenceAnalyser Komponente durch OSGi Events

Page 32: Status quo und zukunft von aa ns.pdf

29.11.10 Status Quo und Zukunft von AANs 32

Analysing-Block (1)

Network-AnalyserReagieren auf Änderungen im DatastoreAnalysieren das Netzwerk (Dichte, Zentralität)

TextAnalyser:Reagieren auf Updates im FulltextstoreBestimmen Schlüsselwörter und Named Entities und legen diese im DataStore abOrchestr8Analyser, OpenCalaisAnalyser, CosineAnalyser

Page 33: Status quo und zukunft von aa ns.pdf

29.11.10 Status Quo und Zukunft von AANs 33

Analysing-Block (2)

RelevanceAnalyserReagiert auf OSGi Events vom FullTextLuceneSemSimAnalyser: berechnet die Semantische Ähnlichkeit von Artefakten nach der SemSim-Funktion

Problem:Ähnlichkeiten werden „on the fly“ berechnet und nicht persistent gespeichert

Lösung:SimitarityStore zur persistenten Speicherung

Page 34: Status quo und zukunft von aa ns.pdf

29.11.10 Status Quo und Zukunft von AANs 34

Fertig!

Vielen Dank für die Aufmerksamkeit!

Page 35: Status quo und zukunft von aa ns.pdf

29.11.10 Status Quo und Zukunft von AANs 35

Literatur (1)

Wolfgang Reinhardt, Matthias Moi, Tobias Varlemann: Artefact-Actor-Networks as tie between social networks and artefact networks

Matthias Moi: Soziale Netzwerkanalyse in Artefact-Actor-Networks

Wolfgang Reinhardt, Tobias Varlemann, Matthias Moi, Adrian Wilke: Modeling, obtaining and storing data from social media tools with Artefact-Actor-Networks

Tobias Varlemann: Konzeption und Entwicklung einer Architektur zur semantischen Analyse, Speicherung und Bereitstellung von Daten aus Blogs und Microblogs in Artefact-Actor-Networks, Universität Paderborn, 2010

Page 36: Status quo und zukunft von aa ns.pdf

29.11.10 Status Quo und Zukunft von AANs 36

Literatur (2)

Adrian Wilke: Analysis and integration of Web 2.0 data sources into a system for analysis and storage of Artefact-Actor-Networks, Universität Paderborn, 2010

Tobias Varlemann: Kleine Einführung ins RDF und Jena

Tobias Varlemann: Kleine Einführung ins OSGi

Gespräche und E-mail Austausch mit:Adrian Wilke, Christian Meier, Tobias Varlemann, Matthias Moi