Von PageRank zu FactRank: Sprach- und texttechnologische Verfahren für den Aufbau der Wissensbasis...
-
Upload
georg-rehm -
Category
Technology
-
view
64 -
download
2
description
Transcript of Von PageRank zu FactRank: Sprach- und texttechnologische Verfahren für den Aufbau der Wissensbasis...
Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 1/251
Von1PageRank1zu1FactRank1
SprachE1und1texGechnologische1Verfahren1zum1AuHau1
der1Wissensbasis1von11xxxxxxxxxxxx1
Georg1Rehm1
vionto1GmbH1
Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 2/251
Gliederung1
• Über1die1vionto1GmbH1
• eyePlorer.com:1Überblick1und1Demo1
• Sprachtechnologie:1Architektur1und1Ansätze1• Konzep.den.fizierung1und1Kategorisierung:1Demo1
• FactRank1und1andere1Herausforderungen1• Zukün;ige1Entwicklungen1• Zusammenfassung1und1Schlussfolgerungen1
Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 3/251
Über1die1vionto1GmbH1
• Gegründet1im1Dezember12008.1
• Sitz1in1Berlin1Friedrichshain.1• 151Mitarbeiter.1
• Finanziert1durch1Business1Angels,1VC1und1Industrieprojekte.1
11
1hGp://www.vionto.com1
1hGp://eyePlorer.com1
Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 4/251
Gliederung1
• Über1die1vionto1GmbH1
• eyePlorer.com:+Überblick+und+Demo1• Sprachtechnologie:1Architektur1und1Ansätze1• Konzep.den.fizierung1und1Kategorisierung:1Demo1
• FactRank1und1andere1Herausforderungen1• Zukün;ige1Entwicklungen1• Zusammenfassung1und1Schlussfolgerungen1
Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 5/251
eyePlorer.com:1Einleitung1und1Ziele1
• Die1visuelle1Wissensmaschine.1
• Interak.ves,1grafisches1Interface.1• Vollautoma.sch1erstelltes1seman.sches1Netzwerk.1
• Liefert1verlässliche,1aktuelle1und1kontextsensi.ve1Informa.onen.1
• Prägnante1Kurzinforma.onen1(„Fakten�)1zu1Konzepten.1
• Faktenzentrierter1Ansatz1(vs.1dokumentzentrierter1Ansatz).1
Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 6/251
Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 7/251
Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 8/251
eyePlorer.com:1Feedback1
"Eine1der1wohl1aufregendsten1
Suchmaschinen1Entwicklungen1der1
letzten1Jahre1kommt1nicht1aus1dem1
Silicon1Valley,1sondern1aus1Berlin:1Auch1
eyePlorer.com1ist1ein1Dienst,1der1für1
seman.sche1Verbindungen1sorgt.1Auf1
Basis1der1erfassten1WikipediaEDaten1
visualisiert1eyePlorer1thema.sche1
Querverbindungen.1Was1dabei1heraus1
kommt,1ist1zuweilen1überraschend,1o;1
erhellend1….1So1etwas1für1das1gesamte1
Web1umzusetzen,1staG1'nur'1für1die1
Inhalte1der1Wikipedia,1würde1dem1Traum1
vom1seman.schen1Web1schon1sehr1nahe1
kommen.1Denn1da1geht1die1Reise1hin,1für1
alle1Player1auf1dem1Markt."1
Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 9/251
Gliederung1
• Über1die1vionto1GmbH1
• eyePlorer.com:1Überblick1und1Demo1
• Sprachtechnologie:+Architektur+und+Ansätze+• Konzep.den.fizierung1und1Kategorisierung:1Demo1
• FactRank1und1andere1Herausforderungen1• Zukün;ige1Entwicklungen1• Zusammenfassung1und1Schlussfolgerungen1
Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 10/251
Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 11/251
Natural1Language1Text1Processing1Pipeline:1Das1Ziel1
• Vollautoma.sche1Extrak.on1hochwer.ger1und1prägnanter1
Informa.onen1zu1Begriffen1des1Weltwissens1aus1freien1Texten1
(Enzyklopädiear.kel,1Agentur.cker,1tweets,1BlogEAr.kel1etc.).1
• NLTPP:1Natural1Language1Text1Processing1Pipeline1
Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 12/251
Natural1Language1Text1Processing1Pipeline1
• Kernfunk.onen:1– Extrak.on1von1Sätzen1aus1Texten.1– Iden.fizierung1bekannter1Konzepte1(in1Bezug1auf1die1Wissensbasis).1
– Disambiguierung1mehrdeu.ger1Konzepte1(Jaguar,1Fuchs1etc.).1– Iden.fizierung1von1Sätzen,1die1zwei1bekannte1Konzepte1in1Rela.on1setzen.1– Bewertung1der1Güte1bzw.1Wer.gkeit1von1Texten1und1Fakten1(FactRank).1
– Iden.fizierung1neuer1benannter1En.täten1(Personen,1Ereignisse1etc.).11• Weitere1Funk.onen1(Auswahl):1
– Named1En.ty1Recogni.on.1
– Erkennung1seman.scher1Rela.onen1zwischen1Konzepten.1
Fact1Base1
Document1
Repository1
sammelt1und11
extrahiert1Fakten1
Linking1
Wissensbasis1
überführt1Texte1und1Ar.kel1in1den1
lokalen1Dokumentbestand1
bewerten,1fügen1hinzu11
und1rekategorisieren1
Preprocessing:1Spracheniden.fizierung1–1Textgüte1–1Textkategorie1–1Textsorte1
Text1 Text1Text1Text1 Text1Text1 Text1Text1 Text1Text1 Text1
Natural1
Language1
Text1
Processing1
Pipeline1
(UIMA)1
Iden.fizierung1von1Satzgrenzen1
PartEofESpeech1Tagger1
Named1En.ty1Recogni.on1
Parser1
Seman.sche1Analyse1(u.a.1Word1Sense11
Disambigua.on,1Iden.fizierung1von1Konzepten)1
Fact1Extrac.on1und1Fact1Ranking1
Linking1
Kategorien1Rollen1 Rela.onen1
Nutzer1
Linked1
Data1
Seman.c1
Web1
...1
externe1
Ressourcen1
Seman.c1Net1
Con.nuous1Fact1Extrac.on1and1Integra.on1Chain1
beliefert1
WSDE1
Signaturen1
werden1separat1berechnet1
Iden.fiziert1
bekannte1
Konzepte1
Iden.fiziert1neue1
Konzepte1bzw.1
Konzeptkandidaten1
Kon.nuierliche1Verarbeitung1und1Aktualisierung1
Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 14/251
Bootstrapping1der1Wissensbasis1
• Seman.scher1Backbone:1Wikipedia1
• Eigene1Kategorisierung,1die1u.a.1auf1DBpedia1basiert1• Englisch:1
– Anzahl1Konzepte:1ca.131Mio.1
– Anzahl1Fakten:1ca.1601Mio.1
• Deutsch:1– Anzahl1Konzepte:1ca.111Mio.1
– Anzahl1Fakten:1ca.1201Mio.1
• Vollständiges1Bootstrapping1benö.gt1auf1einem1HadoopECluster1
mit1361CPUs1(91Nodes)1ca.1301Stunden.1
Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 15/251
NLTPP:1Aktueller1Stand1
• Kernfunk.onen1abgeschlossen:1Satzgrenzensegmen.erer;1
Tokenisierer;1Tagger;1Parser;1UIMA1in1Hadoop;1Word1Sense1
Disambigua.on;1Demonstra.onsE1und1Evalua.onsEGUIs.1
• Kernfunk.onen1–1work1in1progress:1– Named1En.ty1Recogni.on1(z.B.1Firmennamen)1
– Word1Sense1Disambigua.on:1Tuning1und1bug1fixing1
– Fact1Ranking1
Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 16/251
Gliederung1
• Über1die1vionto1GmbH1
• eyePlorer.com:1Überblick1und1Demo1
• Sprachtechnologie:1Architektur1und1Ansätze1• Konzep.den.fizierung1und1Kategorisierung:1Demo1
• FactRank+und+andere+Herausforderungen+• Zukün;ige1Entwicklungen1• Zusammenfassung1und1Schlussfolgerungen1
Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 17/251
NLTPP:1FactRank1
• Berechnung1eines1linguis.sch1mo.vierten1Rangs1für1einen1Fakt.1
• Ein1Fakt1bezieht1sich1immer1auf1ein1ZentralE1und1ein1Objektkonzept.1
• FactRank:1Ein1u.a.1linguis.sch1mo.viertes1Maß1zur1Bes.mmung1der1
Güte1und1Relevanz1eines1Fakts.1
– PageRank1bezieht1sich1auf1Dokumente,1FactRank1auf1Sätze.1
– Features1(Auswahl):1Art1und1Weise1der1Nennung1der1beiden1involvierten1
Konzepte,1Textposi.on,1SyntaxEAnalyse,1Quelle.11
– Algorithmus1und1FeatureEExtrak.on1werden1derzeit1op.miert.1
+
Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 18/251
NLTPP:1Einige1Herausforderungen1
• Maximierung1des1Recall1(z.B.1PronominaE/Koreferenzauflösung).1
• Ausschließliche1Annota.on1von1Konzepten,1die1im1jeweiligen1
Kontext1sinns.;end1und1relevant1sind.1
• Iden.fizierung1neuer1Konzeptkandidaten.1• Erkennung1seman.scher1Rela.onen.1
Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 19/251
Gliederung1
• Über1die1vionto1GmbH1
• eyePlorer.com:1Überblick1und1Demo1
• Sprachtechnologie:1Architektur1und1Ansätze1• Konzep.den.fizierung1und1Kategorisierung:1Demo1
• FactRank1und1andere1Herausforderungen1• ZukünDige+Entwicklungen+• Zusammenfassung1und1Schlussfolgerungen1
Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 20/251
NLTPP:1Zukün;ige1Entwicklungen1
• Verarbeitung1aktuelleren1Contents1(RSSEFeeds,1tweets1etc.)1• UserEGenerated1Content1(z.B.1eigene1Konzepte1und1Fakten)1• NLTPP1Deutsch1• Breitere1und1robustere1Syntax,1.efere1Seman.k:11
– Differenzierung1von1Klassen1und1Individuen1– Erkennung1seman.scher1Rollen1und1Rela.onen1
• Bereitstellung1von1APIs1zum1Zugriff1auf1die1Wissensbasis1
• Integra.on1von1Linked1Data1• iPhoneE1und1AndroidEClients1• twiGer1bot1(interak.ver1twiGerEDialogpartner)1
Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 21/251
Gliederung1
• Über1die1vionto1GmbH1
• eyePlorer.com:1Überblick1und1Demo1
• Sprachtechnologie:1Architektur1und1Ansätze1• Konzep.den.fizierung1und1Kategorisierung:1Demo1
• FactRank1und1andere1Herausforderungen1• Zukün;ige1Entwicklungen1• Zusammenfassung+und+Schlussfolgerungen+
Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 22/251
Zusammenfassung1
• eyePlorer.com1besitzt1ein1sehr1komplexes1Backend.1
• Vollautoma.sch1aufgebaute1Wissensbasis1(seman.sches1Netz).1
– Wikipedia1als1seman.scher1Backbone.1
– Sta.s.sche1und1graphentheore.sche1Methoden.1
– Computerlinguis.sche1Methoden.1
• NLTPP:1UIMAEPipeline1mit1verschiedenen1Open1SourceE1sowie1
spezialisierten1Modulen1(z.B.1Features1für1FactRank).1
• Hohe1Qualitätsansprüche1(Prägnanz1der1Fakten;1Kategorisierung).1• Verschiedene1sehr1schwierige1tasks,1z.B.:1
– Word1Sense1Disambigua.on.1
– Kontextsensi.ve1Annota.on1relevanter1Konzepte.1
Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 23/251
Schlussfolgerungen:1NLPESo;ware1
• Frei1verfügbare1NLPEKomponenten1und1ERessourcen:1
– Wenig1Komponenten1und1Ressourcen1für1das1Deutsche1verfügbar.1
– Entry1barrier1ist1sehr1hoch;1kaum1ein1Modul1ist1direkt1einsetzbar.1
– Schon1gar1nicht1in1industrieller1Umgebung1und1Infrastruktur1(z.B.1Hadoop).1
– Bedarf1für1R&DE1und1Evaluierung1ist1prak.sch1immer1vorhanden.1
• Entwicklung1eigener1Komponenten:1
– R&DEAufwand1für1z.B.1einen1Parser1oder1ein1anno.ertes1Korpus1extrem1hoch.1
– Zeitkon.ngent1und1Budget1für1R&D1allgemein1eher1knapp.1
– Entwickler1bearbeiten1in1der1Regel1parallel1Industrieprojekte.1• Kommerzielle1Werkzeuge:1
– Üblicherweise1extrem1teuer,1daher1kaum1erschwinglich1für1KMU.1
Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 24/251
Schlussfolgerungen:1Standards1
• Standards1sind1schön1und1gut,1aber1...1– Aufwand1für1z.B.1Integra.on1von1UIMA1in1Hadoop1ist1sehr1hoch.1
– Tatsächlicher1Vorteil1von1UIMA1derzeit1noch1unklar.1
– Seman.c1WebETechnologien1sind1sehr1komplex1(zu1komplex?).1
– Seman.c1WebETechnologien1sind1sehr1teuer.1– Von1Standards1werden1o;mals1nur15%1der1Funk.onalität1benö.gt.1
– Anbieter1entsprechender1So;ware1verlangen1trotzdem1100%1des1Preises.1
• Diskrepanz1zwischen1Forschung1(„Performanz1spielt1keine1Rolle.�)1und1Industrie1(real1.me1search,1high1performance1compu.ng).1
• Unsere1Lösung1für1diese1Probleme:1Koopera.onen1aller1Art,1
insbesondere1geförderte1Koopera.onsE1und1Transferprojekte.1
Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 25/251
Q/A1
Vielen1Dank1für1Ihre1Aufmerksamkeit!11
1
1
Fragen1oder1Interesse1an1Koopera.onen?1
03014020329E151