Inhaltsanalyse und Semantische Verknüpfung in CONTENTUS ... › pdf › petrus ›...
Transcript of Inhaltsanalyse und Semantische Verknüpfung in CONTENTUS ... › pdf › petrus ›...
Inhaltsanalyse undsemantische Verknüpfungen in semantische Verknüpfungen in
CONTENTUS
Überblick
• Hintergrund und Motivation
• Der CONTENTUS‐Ansatz
• Inhaltsanalyse y
• Semantische Verknüpfung
• Zusammenfassung• Zusammenfassung
2
Hintergrund
• XN T h l i fü d I t t d Di t “– „Neue Technologien für das Internet der Dienste“
– Gefördert durch das Bundesministerium für Wirtschaft und Technologie
– Konsortium von ca. 60 Partnern aus Industrie und Forschungg
• X NTENTUSCONTENTUSCO
– „Use Case“ in THESEUS
– Technologien für multimediale Archive der nächsten Generation
3
Motivation
• Viele, umfangreiche multimediale Archive, z.B. in:– Bibliotheken, Museen
Sendeanstalten Medienarchiven– Sendeanstalten, Medienarchiven– Onlinearchive
• Großes Potential: Inhalte…– nachzunutzen, an Kunden zu verkaufen– Interessierten bereitstellen
• Typische Probleme bei der Nutzungyp g– Medien analoger Form kaum nachnutzbar– Medien vom Zerfall bedroht– Qualitätsprobleme – Inhalte schlecht beschrieben– Zum Teil gewaltiger Umfang der Archive erschwert Suche– Sinnzusammenhänge zwischen Inhalten sind unklar
4
Medienzerfall
• UrsachenU h äß L– Unsachgemäße Lagerung
– Materialermüdung
• Auswirkungen (Beispiele)– Print: Ausbleichen, Zersetzung durch Säure
– Film: Kratzer, Verschmutzungen, Verzerrungen
– Magnetbänder: Drop‐outs
– Optische Medien: Zersetzung der Beschichtungen
5
Herausforderung Digitalisierung
• Möglicher QualitätsverlustU i t H d– Ungeeignete Hardware
– Fehlerhafte Einstellungen
– Mangelndes Qualitätsbewusstseing Q
• Ziele– Rationalisierung des Digitalisierungsvorgangs durch Teilautomatisierung der Qualitätsüberwachung
K ti i li h Q lität üf äh d d A ft– Kontinuierliche Qualitätsprüfung während des Auftrags
6
Metadaten
• Für die spätere Nutzung entscheidendS h– Suche
– Abgrenzung von Medien
– Semantische Verknüpfungenp g
• Mögliche Probleme– Metadaten nicht immer vorhanden / vollständig
– Erschließung zeitaufwändig und fehleranfällig
– Interkompatibilität von Metadatenquellen• Vokabular, Datenformate, Methodik / Regelwerk
7
Zugriff und Nutzung
• Einschränkungen gegenwärtiger Suchansätze N b di t i t fü lti di l I h lt– Nur bedingt geeignet für multimediale Inhalte
– Suche und Zugriff oft getrennt
– Zusammenhänge zwischen Medien oft nicht transparentg p
• Zusätzliche Herausforderungeng– Rechtliche Probleme
– Daten ohne Metadaten kaum zu finden
8
9
1 2 3 4 5 6
DigitizationAutomatic
QualityAutomaticContent
SemanticMetadata
OpenKnowledge
SemanticMultimediag Q y
Control Analysis Linkingg
Networks Search
medienspezifisch medienübergreifend
10
1 2
DigitizationAutomatic
Qualityg Q yControl
11
Qualitätskontrolle
• Oftmals notwendigAusgangsmedien sind u U schon im Verfall– Ausgangsmedien sind u.U. schon im Verfall
– Digitalisierung kann selbst Qualitätsprobleme verursachen– Entscheidend für weitere Verarbeitung (Inhaltsanalyse)Entscheidend für weitere Verarbeitung (Inhaltsanalyse)
• Ziele: Automatisierung und EffizienzZiele: Automatisierung und Effizienz– Manuelle Qualitätskontrolle ist teuer (Zeit/Kosten)– Archive sind u.U. zu groß für manuelle Verarbeitung
12
Quality Control: De‐Warping
13
Quality Control: Scratch Removal Defect automatically
detected
Defect automatically removed
14
1 2 3
DigitizationAutomatic
QualityAutomaticContentg Q y
Control Analysis
medienspezifisch
15
Inhaltsanalyse
• Digitalisierung reicht nicht– Was enthalten die Medien?Was enthalten die Medien?
• Beschreibende Metadaten helfen bei Suche und Zugriff– Zielgerichtete Suche – Für Unterscheidung ähnlicher Inhalte wichtig
• Ziel: Automatisierung– Manuelle Analyse ist aufwändig: Manuelle Analyse ist aufwändig:
ca. 4-10 Stunden Arbeit für 1 Stunde audiovisuellen Inhalts
16
Inhaltsanalyse: Ablauf am Beispiel Print
Digitalisat Struktur-erkennung
OCR Entitäten-erkennung &g gKlassifikation
17
Inhaltsanalyse: Segmentierung von Seiten
• Automatische Identifikation von– Artikeln
– Überschriften
– Bildern, Bildunterschriften
– Lesereihenfolge
• Wichtig für die Suche
18
Inhaltsanalyse: Entity Recognition
• Identifikation von Bedeutungen, Unterscheidung von Entitäten
Über Kohl höhnte Strauß: „Er wird nie Kanzler werden“. Die Zeit, 18.7.08
AutomatischeKlassifikation durch Vergleich
it t Q ll
Genauigkeit Trefferquote F-Maß
Personen 92.06% (89.4%) 88.85% (88.4%) 90.42% (88.9%)
Orte 90.74% (80.2%) 86.21% (71.6%) 88.42% (75.7%)
» Analyse der Wortumgebung und -kontext“Kohl” in einem Satz mit “Kanzler” → vermutlich eine Person
mit externen Quellen (z.B. Wikipedia)Organisationen 85.81% (79.4%) 74.59% (54.5%) 78.71% (64.6%)
» Kohl” in einem Satz mit Kanzler” → vermutlich eine Person» “Kohl” in einem Satz mit “kochen” → eher ein Gemüse
19
Inhaltsanalyse: Disambiguierung
Michael Müller (SPD)
SPD-Fraktionschef Michael Müller ist erneut in seinem Amt bestätigt worden. (www.berlinonline.de)
Michael Müller (Handballspieler)
Handball-Nationalspieler Michael Müller vom TV Großwallstadt hat sich für einen Wechsel entschieden. (www.br-online.de)
(wikipedia.de)
( p )
Das Sachverständigenbüro Michael Müller ist ein Familienunternehmen. (www.presseecho.de) Michael Müller
(wikipedia.de)
Genauigkeit Trefferquote F-MaßGenauigkeit Trefferquote F Maß
Performanz 92.64% 92.93% 92.79%
20
1 2 3 4
DigitizationAutomatic
QualityAutomaticContent
SemanticMetadatag Q y
Control Analysis Linking
medienspezifisch medienübergreifend
21
Semantische Verknüpfungen von Metadaten
• Integration und Verknüpfung aus verschiedenen QuellenI t ll kt ll f t– Intellektuell erfasst
– Automatisch erzeugt
– Aus externen Quellen (Internet)Q ( )
• Motivation– Integrierte Präsentation von relevanten Informationen
– Verdeutlichung der Beziehungen zwischen Medien und Entitäten
22
LübeckExterne Datenquellen
NormdatenPND
Wikipedia
2:28Von der Taufschale und vom Großvater in …5MusicBrainz
3:08Ehrbare Verfinsterung7
3:45Bei Tienappels. Und von Hans Castorps …6
23
1 2 3 4 5 6
DigitizationAutomatic
QualityAutomaticContent
SemanticMetadata
OpenKnowledge
SemanticMultimediag Q y
Control Analysis Linkingg
Networks Search
medienspezifisch medienübergreifend
24
25
26
Anzeige von erkannten Entitäten
27
CONTENTUS
• Technologien für Multimedia‐Archive der nächsten GenerationArchive der nächsten Generation
• Fokus auf automatische Verfahrenund Semantikund Semantik
• Abdeckung der gesamten Prozesskette von der Digitalisierung bis zur NutzungProzesskette von der Digitalisierung bis zur Nutzung
Automatic Automatic Semantic Open SemanticDigitization Quality
ControlContentAnalysis
MetadataLinking
KnowledgeNetworks
MultimediaSearch
28
Inhaltsanalyse undsemantische Verknüpfungen in semantische Verknüpfungen in
CONTENTUS