Von PageRank zu FactRank: Sprach- und texttechnologische Verfahren für den Aufbau der Wissensbasis...

Post on 18-Dec-2014

64 views 2 download

description

Georg Rehm. Von PageRank zu FactRank: Sprach- und texttechnologische Verfahren für den Aufbau der Wissensbasis von eyePlorer.com. GSCL 2009, Workshop Computerlinguistische Anwendungen und deren Potenzial für die Wirtschaft, Universität Potsdam, Germany, September 2009. September 8, 2009. Talk.

Transcript of Von PageRank zu FactRank: Sprach- und texttechnologische Verfahren für den Aufbau der Wissensbasis...

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 1/251

Von1PageRank1zu1FactRank1

SprachE1und1texGechnologische1Verfahren1zum1AuHau1

der1Wissensbasis1von11xxxxxxxxxxxx1

Georg1Rehm1

vionto1GmbH1

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 2/251

Gliederung1

•  Über1die1vionto1GmbH1

•  eyePlorer.com:1Überblick1und1Demo1

•  Sprachtechnologie:1Architektur1und1Ansätze1•  Konzep.den.fizierung1und1Kategorisierung:1Demo1

•  FactRank1und1andere1Herausforderungen1•  Zukün;ige1Entwicklungen1•  Zusammenfassung1und1Schlussfolgerungen1

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 3/251

Über1die1vionto1GmbH1

•  Gegründet1im1Dezember12008.1

•  Sitz1in1Berlin1Friedrichshain.1•  151Mitarbeiter.1

•  Finanziert1durch1Business1Angels,1VC1und1Industrieprojekte.1

11

1hGp://www.vionto.com1

1hGp://eyePlorer.com1

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 4/251

Gliederung1

•  Über1die1vionto1GmbH1

•  eyePlorer.com:+Überblick+und+Demo1•  Sprachtechnologie:1Architektur1und1Ansätze1•  Konzep.den.fizierung1und1Kategorisierung:1Demo1

•  FactRank1und1andere1Herausforderungen1•  Zukün;ige1Entwicklungen1•  Zusammenfassung1und1Schlussfolgerungen1

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 5/251

eyePlorer.com:1Einleitung1und1Ziele1

•  Die1visuelle1Wissensmaschine.1

•  Interak.ves,1grafisches1Interface.1•  Vollautoma.sch1erstelltes1seman.sches1Netzwerk.1

•  Liefert1verlässliche,1aktuelle1und1kontextsensi.ve1Informa.onen.1

•  Prägnante1Kurzinforma.onen1(„Fakten�)1zu1Konzepten.1

•  Faktenzentrierter1Ansatz1(vs.1dokumentzentrierter1Ansatz).1

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 6/251

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 7/251

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 8/251

eyePlorer.com:1Feedback1

"Eine1der1wohl1aufregendsten1

Suchmaschinen1Entwicklungen1der1

letzten1Jahre1kommt1nicht1aus1dem1

Silicon1Valley,1sondern1aus1Berlin:1Auch1

eyePlorer.com1ist1ein1Dienst,1der1für1

seman.sche1Verbindungen1sorgt.1Auf1

Basis1der1erfassten1WikipediaEDaten1

visualisiert1eyePlorer1thema.sche1

Querverbindungen.1Was1dabei1heraus1

kommt,1ist1zuweilen1überraschend,1o;1

erhellend1….1So1etwas1für1das1gesamte1

Web1umzusetzen,1staG1'nur'1für1die1

Inhalte1der1Wikipedia,1würde1dem1Traum1

vom1seman.schen1Web1schon1sehr1nahe1

kommen.1Denn1da1geht1die1Reise1hin,1für1

alle1Player1auf1dem1Markt."1

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 9/251

Gliederung1

•  Über1die1vionto1GmbH1

•  eyePlorer.com:1Überblick1und1Demo1

•  Sprachtechnologie:+Architektur+und+Ansätze+•  Konzep.den.fizierung1und1Kategorisierung:1Demo1

•  FactRank1und1andere1Herausforderungen1•  Zukün;ige1Entwicklungen1•  Zusammenfassung1und1Schlussfolgerungen1

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 10/251

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 11/251

Natural1Language1Text1Processing1Pipeline:1Das1Ziel1

•  Vollautoma.sche1Extrak.on1hochwer.ger1und1prägnanter1

Informa.onen1zu1Begriffen1des1Weltwissens1aus1freien1Texten1

(Enzyklopädiear.kel,1Agentur.cker,1tweets,1BlogEAr.kel1etc.).1

•  NLTPP:1Natural1Language1Text1Processing1Pipeline1

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 12/251

Natural1Language1Text1Processing1Pipeline1

•  Kernfunk.onen:1–  Extrak.on1von1Sätzen1aus1Texten.1–  Iden.fizierung1bekannter1Konzepte1(in1Bezug1auf1die1Wissensbasis).1

–  Disambiguierung1mehrdeu.ger1Konzepte1(Jaguar,1Fuchs1etc.).1–  Iden.fizierung1von1Sätzen,1die1zwei1bekannte1Konzepte1in1Rela.on1setzen.1–  Bewertung1der1Güte1bzw.1Wer.gkeit1von1Texten1und1Fakten1(FactRank).1

–  Iden.fizierung1neuer1benannter1En.täten1(Personen,1Ereignisse1etc.).11•  Weitere1Funk.onen1(Auswahl):1

–  Named1En.ty1Recogni.on.1

–  Erkennung1seman.scher1Rela.onen1zwischen1Konzepten.1

Fact1Base1

Document1

Repository1

sammelt1und11

extrahiert1Fakten1

Linking1

Wissensbasis1

überführt1Texte1und1Ar.kel1in1den1

lokalen1Dokumentbestand1

bewerten,1fügen1hinzu11

und1rekategorisieren1

Preprocessing:1Spracheniden.fizierung1–1Textgüte1–1Textkategorie1–1Textsorte1

Text1 Text1Text1Text1 Text1Text1 Text1Text1 Text1Text1 Text1

Natural1

Language1

Text1

Processing1

Pipeline1

(UIMA)1

Iden.fizierung1von1Satzgrenzen1

PartEofESpeech1Tagger1

Named1En.ty1Recogni.on1

Parser1

Seman.sche1Analyse1(u.a.1Word1Sense11

Disambigua.on,1Iden.fizierung1von1Konzepten)1

Fact1Extrac.on1und1Fact1Ranking1

Linking1

Kategorien1Rollen1 Rela.onen1

Nutzer1

Linked1

Data1

Seman.c1

Web1

...1

externe1

Ressourcen1

Seman.c1Net1

Con.nuous1Fact1Extrac.on1and1Integra.on1Chain1

beliefert1

WSDE1

Signaturen1

werden1separat1berechnet1

Iden.fiziert1

bekannte1

Konzepte1

Iden.fiziert1neue1

Konzepte1bzw.1

Konzeptkandidaten1

Kon.nuierliche1Verarbeitung1und1Aktualisierung1

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 14/251

Bootstrapping1der1Wissensbasis1

•  Seman.scher1Backbone:1Wikipedia1

•  Eigene1Kategorisierung,1die1u.a.1auf1DBpedia1basiert1•  Englisch:1

–  Anzahl1Konzepte:1ca.131Mio.1

–  Anzahl1Fakten:1ca.1601Mio.1

•  Deutsch:1–  Anzahl1Konzepte:1ca.111Mio.1

–  Anzahl1Fakten:1ca.1201Mio.1

•  Vollständiges1Bootstrapping1benö.gt1auf1einem1HadoopECluster1

mit1361CPUs1(91Nodes)1ca.1301Stunden.1

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 15/251

NLTPP:1Aktueller1Stand1

•  Kernfunk.onen1abgeschlossen:1Satzgrenzensegmen.erer;1

Tokenisierer;1Tagger;1Parser;1UIMA1in1Hadoop;1Word1Sense1

Disambigua.on;1Demonstra.onsE1und1Evalua.onsEGUIs.1

•  Kernfunk.onen1–1work1in1progress:1–  Named1En.ty1Recogni.on1(z.B.1Firmennamen)1

– Word1Sense1Disambigua.on:1Tuning1und1bug1fixing1

–  Fact1Ranking1

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 16/251

Gliederung1

•  Über1die1vionto1GmbH1

•  eyePlorer.com:1Überblick1und1Demo1

•  Sprachtechnologie:1Architektur1und1Ansätze1•  Konzep.den.fizierung1und1Kategorisierung:1Demo1

•  FactRank+und+andere+Herausforderungen+•  Zukün;ige1Entwicklungen1•  Zusammenfassung1und1Schlussfolgerungen1

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 17/251

NLTPP:1FactRank1

•  Berechnung1eines1linguis.sch1mo.vierten1Rangs1für1einen1Fakt.1

•  Ein1Fakt1bezieht1sich1immer1auf1ein1ZentralE1und1ein1Objektkonzept.1

•  FactRank:1Ein1u.a.1linguis.sch1mo.viertes1Maß1zur1Bes.mmung1der1

Güte1und1Relevanz1eines1Fakts.1

–  PageRank1bezieht1sich1auf1Dokumente,1FactRank1auf1Sätze.1

–  Features1(Auswahl):1Art1und1Weise1der1Nennung1der1beiden1involvierten1

Konzepte,1Textposi.on,1SyntaxEAnalyse,1Quelle.11

–  Algorithmus1und1FeatureEExtrak.on1werden1derzeit1op.miert.1

+

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 18/251

NLTPP:1Einige1Herausforderungen1

•  Maximierung1des1Recall1(z.B.1PronominaE/Koreferenzauflösung).1

•  Ausschließliche1Annota.on1von1Konzepten,1die1im1jeweiligen1

Kontext1sinns.;end1und1relevant1sind.1

•  Iden.fizierung1neuer1Konzeptkandidaten.1•  Erkennung1seman.scher1Rela.onen.1

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 19/251

Gliederung1

•  Über1die1vionto1GmbH1

•  eyePlorer.com:1Überblick1und1Demo1

•  Sprachtechnologie:1Architektur1und1Ansätze1•  Konzep.den.fizierung1und1Kategorisierung:1Demo1

•  FactRank1und1andere1Herausforderungen1•  ZukünDige+Entwicklungen+•  Zusammenfassung1und1Schlussfolgerungen1

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 20/251

NLTPP:1Zukün;ige1Entwicklungen1

•  Verarbeitung1aktuelleren1Contents1(RSSEFeeds,1tweets1etc.)1•  UserEGenerated1Content1(z.B.1eigene1Konzepte1und1Fakten)1•  NLTPP1Deutsch1•  Breitere1und1robustere1Syntax,1.efere1Seman.k:11

–  Differenzierung1von1Klassen1und1Individuen1–  Erkennung1seman.scher1Rollen1und1Rela.onen1

•  Bereitstellung1von1APIs1zum1Zugriff1auf1die1Wissensbasis1

•  Integra.on1von1Linked1Data1•  iPhoneE1und1AndroidEClients1•  twiGer1bot1(interak.ver1twiGerEDialogpartner)1

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 21/251

Gliederung1

•  Über1die1vionto1GmbH1

•  eyePlorer.com:1Überblick1und1Demo1

•  Sprachtechnologie:1Architektur1und1Ansätze1•  Konzep.den.fizierung1und1Kategorisierung:1Demo1

•  FactRank1und1andere1Herausforderungen1•  Zukün;ige1Entwicklungen1•  Zusammenfassung+und+Schlussfolgerungen+

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 22/251

Zusammenfassung1

•  eyePlorer.com1besitzt1ein1sehr1komplexes1Backend.1

•  Vollautoma.sch1aufgebaute1Wissensbasis1(seman.sches1Netz).1

–  Wikipedia1als1seman.scher1Backbone.1

–  Sta.s.sche1und1graphentheore.sche1Methoden.1

–  Computerlinguis.sche1Methoden.1

•  NLTPP:1UIMAEPipeline1mit1verschiedenen1Open1SourceE1sowie1

spezialisierten1Modulen1(z.B.1Features1für1FactRank).1

•  Hohe1Qualitätsansprüche1(Prägnanz1der1Fakten;1Kategorisierung).1•  Verschiedene1sehr1schwierige1tasks,1z.B.:1

–  Word1Sense1Disambigua.on.1

–  Kontextsensi.ve1Annota.on1relevanter1Konzepte.1

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 23/251

Schlussfolgerungen:1NLPESo;ware1

•  Frei1verfügbare1NLPEKomponenten1und1ERessourcen:1

–  Wenig1Komponenten1und1Ressourcen1für1das1Deutsche1verfügbar.1

–  Entry1barrier1ist1sehr1hoch;1kaum1ein1Modul1ist1direkt1einsetzbar.1

–  Schon1gar1nicht1in1industrieller1Umgebung1und1Infrastruktur1(z.B.1Hadoop).1

–  Bedarf1für1R&DE1und1Evaluierung1ist1prak.sch1immer1vorhanden.1

•  Entwicklung1eigener1Komponenten:1

–  R&DEAufwand1für1z.B.1einen1Parser1oder1ein1anno.ertes1Korpus1extrem1hoch.1

–  Zeitkon.ngent1und1Budget1für1R&D1allgemein1eher1knapp.1

–  Entwickler1bearbeiten1in1der1Regel1parallel1Industrieprojekte.1•  Kommerzielle1Werkzeuge:1

–  Üblicherweise1extrem1teuer,1daher1kaum1erschwinglich1für1KMU.1

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 24/251

Schlussfolgerungen:1Standards1

•  Standards1sind1schön1und1gut,1aber1...1–  Aufwand1für1z.B.1Integra.on1von1UIMA1in1Hadoop1ist1sehr1hoch.1

–  Tatsächlicher1Vorteil1von1UIMA1derzeit1noch1unklar.1

–  Seman.c1WebETechnologien1sind1sehr1komplex1(zu1komplex?).1

–  Seman.c1WebETechnologien1sind1sehr1teuer.1–  Von1Standards1werden1o;mals1nur15%1der1Funk.onalität1benö.gt.1

–  Anbieter1entsprechender1So;ware1verlangen1trotzdem1100%1des1Preises.1

•  Diskrepanz1zwischen1Forschung1(„Performanz1spielt1keine1Rolle.�)1und1Industrie1(real1.me1search,1high1performance1compu.ng).1

•  Unsere1Lösung1für1diese1Probleme:1Koopera.onen1aller1Art,1

insbesondere1geförderte1Koopera.onsE1und1Transferprojekte.1

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 25/251

Q/A1

Vielen1Dank1für1Ihre1Aufmerksamkeit!11

1

1

Fragen1oder1Interesse1an1Koopera.onen?1

georg.rehm@vionto.com1

03014020329E151