Von PageRank zu FactRank: Sprach- und texttechnologische Verfahren für den Aufbau der Wissensbasis...

25
Computerlinguis.sche Anwendungen und deren Potenzial für die Wirtscha; 1/25 Von PageRank zu FactRank SprachE und texGechnologische Verfahren zum AuHau der Wissensbasis von xxxxxxxxxxxx Georg Rehm vionto GmbH

description

Georg Rehm. Von PageRank zu FactRank: Sprach- und texttechnologische Verfahren für den Aufbau der Wissensbasis von eyePlorer.com. GSCL 2009, Workshop Computerlinguistische Anwendungen und deren Potenzial für die Wirtschaft, Universität Potsdam, Germany, September 2009. September 8, 2009. Talk.

Transcript of Von PageRank zu FactRank: Sprach- und texttechnologische Verfahren für den Aufbau der Wissensbasis...

Page 1: Von PageRank zu FactRank: Sprach- und texttechnologische Verfahren für den Aufbau der Wissensbasis von eyePlorer.com

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 1/251

Von1PageRank1zu1FactRank1

SprachE1und1texGechnologische1Verfahren1zum1AuHau1

der1Wissensbasis1von11xxxxxxxxxxxx1

Georg1Rehm1

vionto1GmbH1

Page 2: Von PageRank zu FactRank: Sprach- und texttechnologische Verfahren für den Aufbau der Wissensbasis von eyePlorer.com

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 2/251

Gliederung1

•  Über1die1vionto1GmbH1

•  eyePlorer.com:1Überblick1und1Demo1

•  Sprachtechnologie:1Architektur1und1Ansätze1•  Konzep.den.fizierung1und1Kategorisierung:1Demo1

•  FactRank1und1andere1Herausforderungen1•  Zukün;ige1Entwicklungen1•  Zusammenfassung1und1Schlussfolgerungen1

Page 3: Von PageRank zu FactRank: Sprach- und texttechnologische Verfahren für den Aufbau der Wissensbasis von eyePlorer.com

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 3/251

Über1die1vionto1GmbH1

•  Gegründet1im1Dezember12008.1

•  Sitz1in1Berlin1Friedrichshain.1•  151Mitarbeiter.1

•  Finanziert1durch1Business1Angels,1VC1und1Industrieprojekte.1

11

1hGp://www.vionto.com1

1hGp://eyePlorer.com1

Page 4: Von PageRank zu FactRank: Sprach- und texttechnologische Verfahren für den Aufbau der Wissensbasis von eyePlorer.com

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 4/251

Gliederung1

•  Über1die1vionto1GmbH1

•  eyePlorer.com:+Überblick+und+Demo1•  Sprachtechnologie:1Architektur1und1Ansätze1•  Konzep.den.fizierung1und1Kategorisierung:1Demo1

•  FactRank1und1andere1Herausforderungen1•  Zukün;ige1Entwicklungen1•  Zusammenfassung1und1Schlussfolgerungen1

Page 5: Von PageRank zu FactRank: Sprach- und texttechnologische Verfahren für den Aufbau der Wissensbasis von eyePlorer.com

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 5/251

eyePlorer.com:1Einleitung1und1Ziele1

•  Die1visuelle1Wissensmaschine.1

•  Interak.ves,1grafisches1Interface.1•  Vollautoma.sch1erstelltes1seman.sches1Netzwerk.1

•  Liefert1verlässliche,1aktuelle1und1kontextsensi.ve1Informa.onen.1

•  Prägnante1Kurzinforma.onen1(„Fakten�)1zu1Konzepten.1

•  Faktenzentrierter1Ansatz1(vs.1dokumentzentrierter1Ansatz).1

Page 6: Von PageRank zu FactRank: Sprach- und texttechnologische Verfahren für den Aufbau der Wissensbasis von eyePlorer.com

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 6/251

Page 7: Von PageRank zu FactRank: Sprach- und texttechnologische Verfahren für den Aufbau der Wissensbasis von eyePlorer.com

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 7/251

Page 8: Von PageRank zu FactRank: Sprach- und texttechnologische Verfahren für den Aufbau der Wissensbasis von eyePlorer.com

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 8/251

eyePlorer.com:1Feedback1

"Eine1der1wohl1aufregendsten1

Suchmaschinen1Entwicklungen1der1

letzten1Jahre1kommt1nicht1aus1dem1

Silicon1Valley,1sondern1aus1Berlin:1Auch1

eyePlorer.com1ist1ein1Dienst,1der1für1

seman.sche1Verbindungen1sorgt.1Auf1

Basis1der1erfassten1WikipediaEDaten1

visualisiert1eyePlorer1thema.sche1

Querverbindungen.1Was1dabei1heraus1

kommt,1ist1zuweilen1überraschend,1o;1

erhellend1….1So1etwas1für1das1gesamte1

Web1umzusetzen,1staG1'nur'1für1die1

Inhalte1der1Wikipedia,1würde1dem1Traum1

vom1seman.schen1Web1schon1sehr1nahe1

kommen.1Denn1da1geht1die1Reise1hin,1für1

alle1Player1auf1dem1Markt."1

Page 9: Von PageRank zu FactRank: Sprach- und texttechnologische Verfahren für den Aufbau der Wissensbasis von eyePlorer.com

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 9/251

Gliederung1

•  Über1die1vionto1GmbH1

•  eyePlorer.com:1Überblick1und1Demo1

•  Sprachtechnologie:+Architektur+und+Ansätze+•  Konzep.den.fizierung1und1Kategorisierung:1Demo1

•  FactRank1und1andere1Herausforderungen1•  Zukün;ige1Entwicklungen1•  Zusammenfassung1und1Schlussfolgerungen1

Page 10: Von PageRank zu FactRank: Sprach- und texttechnologische Verfahren für den Aufbau der Wissensbasis von eyePlorer.com

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 10/251

Page 11: Von PageRank zu FactRank: Sprach- und texttechnologische Verfahren für den Aufbau der Wissensbasis von eyePlorer.com

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 11/251

Natural1Language1Text1Processing1Pipeline:1Das1Ziel1

•  Vollautoma.sche1Extrak.on1hochwer.ger1und1prägnanter1

Informa.onen1zu1Begriffen1des1Weltwissens1aus1freien1Texten1

(Enzyklopädiear.kel,1Agentur.cker,1tweets,1BlogEAr.kel1etc.).1

•  NLTPP:1Natural1Language1Text1Processing1Pipeline1

Page 12: Von PageRank zu FactRank: Sprach- und texttechnologische Verfahren für den Aufbau der Wissensbasis von eyePlorer.com

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 12/251

Natural1Language1Text1Processing1Pipeline1

•  Kernfunk.onen:1–  Extrak.on1von1Sätzen1aus1Texten.1–  Iden.fizierung1bekannter1Konzepte1(in1Bezug1auf1die1Wissensbasis).1

–  Disambiguierung1mehrdeu.ger1Konzepte1(Jaguar,1Fuchs1etc.).1–  Iden.fizierung1von1Sätzen,1die1zwei1bekannte1Konzepte1in1Rela.on1setzen.1–  Bewertung1der1Güte1bzw.1Wer.gkeit1von1Texten1und1Fakten1(FactRank).1

–  Iden.fizierung1neuer1benannter1En.täten1(Personen,1Ereignisse1etc.).11•  Weitere1Funk.onen1(Auswahl):1

–  Named1En.ty1Recogni.on.1

–  Erkennung1seman.scher1Rela.onen1zwischen1Konzepten.1

Page 13: Von PageRank zu FactRank: Sprach- und texttechnologische Verfahren für den Aufbau der Wissensbasis von eyePlorer.com

Fact1Base1

Document1

Repository1

sammelt1und11

extrahiert1Fakten1

Linking1

Wissensbasis1

überführt1Texte1und1Ar.kel1in1den1

lokalen1Dokumentbestand1

bewerten,1fügen1hinzu11

und1rekategorisieren1

Preprocessing:1Spracheniden.fizierung1–1Textgüte1–1Textkategorie1–1Textsorte1

Text1 Text1Text1Text1 Text1Text1 Text1Text1 Text1Text1 Text1

Natural1

Language1

Text1

Processing1

Pipeline1

(UIMA)1

Iden.fizierung1von1Satzgrenzen1

PartEofESpeech1Tagger1

Named1En.ty1Recogni.on1

Parser1

Seman.sche1Analyse1(u.a.1Word1Sense11

Disambigua.on,1Iden.fizierung1von1Konzepten)1

Fact1Extrac.on1und1Fact1Ranking1

Linking1

Kategorien1Rollen1 Rela.onen1

Nutzer1

Linked1

Data1

Seman.c1

Web1

...1

externe1

Ressourcen1

Seman.c1Net1

Con.nuous1Fact1Extrac.on1and1Integra.on1Chain1

beliefert1

WSDE1

Signaturen1

werden1separat1berechnet1

Iden.fiziert1

bekannte1

Konzepte1

Iden.fiziert1neue1

Konzepte1bzw.1

Konzeptkandidaten1

Kon.nuierliche1Verarbeitung1und1Aktualisierung1

Page 14: Von PageRank zu FactRank: Sprach- und texttechnologische Verfahren für den Aufbau der Wissensbasis von eyePlorer.com

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 14/251

Bootstrapping1der1Wissensbasis1

•  Seman.scher1Backbone:1Wikipedia1

•  Eigene1Kategorisierung,1die1u.a.1auf1DBpedia1basiert1•  Englisch:1

–  Anzahl1Konzepte:1ca.131Mio.1

–  Anzahl1Fakten:1ca.1601Mio.1

•  Deutsch:1–  Anzahl1Konzepte:1ca.111Mio.1

–  Anzahl1Fakten:1ca.1201Mio.1

•  Vollständiges1Bootstrapping1benö.gt1auf1einem1HadoopECluster1

mit1361CPUs1(91Nodes)1ca.1301Stunden.1

Page 15: Von PageRank zu FactRank: Sprach- und texttechnologische Verfahren für den Aufbau der Wissensbasis von eyePlorer.com

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 15/251

NLTPP:1Aktueller1Stand1

•  Kernfunk.onen1abgeschlossen:1Satzgrenzensegmen.erer;1

Tokenisierer;1Tagger;1Parser;1UIMA1in1Hadoop;1Word1Sense1

Disambigua.on;1Demonstra.onsE1und1Evalua.onsEGUIs.1

•  Kernfunk.onen1–1work1in1progress:1–  Named1En.ty1Recogni.on1(z.B.1Firmennamen)1

– Word1Sense1Disambigua.on:1Tuning1und1bug1fixing1

–  Fact1Ranking1

Page 16: Von PageRank zu FactRank: Sprach- und texttechnologische Verfahren für den Aufbau der Wissensbasis von eyePlorer.com

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 16/251

Gliederung1

•  Über1die1vionto1GmbH1

•  eyePlorer.com:1Überblick1und1Demo1

•  Sprachtechnologie:1Architektur1und1Ansätze1•  Konzep.den.fizierung1und1Kategorisierung:1Demo1

•  FactRank+und+andere+Herausforderungen+•  Zukün;ige1Entwicklungen1•  Zusammenfassung1und1Schlussfolgerungen1

Page 17: Von PageRank zu FactRank: Sprach- und texttechnologische Verfahren für den Aufbau der Wissensbasis von eyePlorer.com

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 17/251

NLTPP:1FactRank1

•  Berechnung1eines1linguis.sch1mo.vierten1Rangs1für1einen1Fakt.1

•  Ein1Fakt1bezieht1sich1immer1auf1ein1ZentralE1und1ein1Objektkonzept.1

•  FactRank:1Ein1u.a.1linguis.sch1mo.viertes1Maß1zur1Bes.mmung1der1

Güte1und1Relevanz1eines1Fakts.1

–  PageRank1bezieht1sich1auf1Dokumente,1FactRank1auf1Sätze.1

–  Features1(Auswahl):1Art1und1Weise1der1Nennung1der1beiden1involvierten1

Konzepte,1Textposi.on,1SyntaxEAnalyse,1Quelle.11

–  Algorithmus1und1FeatureEExtrak.on1werden1derzeit1op.miert.1

+

Page 18: Von PageRank zu FactRank: Sprach- und texttechnologische Verfahren für den Aufbau der Wissensbasis von eyePlorer.com

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 18/251

NLTPP:1Einige1Herausforderungen1

•  Maximierung1des1Recall1(z.B.1PronominaE/Koreferenzauflösung).1

•  Ausschließliche1Annota.on1von1Konzepten,1die1im1jeweiligen1

Kontext1sinns.;end1und1relevant1sind.1

•  Iden.fizierung1neuer1Konzeptkandidaten.1•  Erkennung1seman.scher1Rela.onen.1

Page 19: Von PageRank zu FactRank: Sprach- und texttechnologische Verfahren für den Aufbau der Wissensbasis von eyePlorer.com

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 19/251

Gliederung1

•  Über1die1vionto1GmbH1

•  eyePlorer.com:1Überblick1und1Demo1

•  Sprachtechnologie:1Architektur1und1Ansätze1•  Konzep.den.fizierung1und1Kategorisierung:1Demo1

•  FactRank1und1andere1Herausforderungen1•  ZukünDige+Entwicklungen+•  Zusammenfassung1und1Schlussfolgerungen1

Page 20: Von PageRank zu FactRank: Sprach- und texttechnologische Verfahren für den Aufbau der Wissensbasis von eyePlorer.com

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 20/251

NLTPP:1Zukün;ige1Entwicklungen1

•  Verarbeitung1aktuelleren1Contents1(RSSEFeeds,1tweets1etc.)1•  UserEGenerated1Content1(z.B.1eigene1Konzepte1und1Fakten)1•  NLTPP1Deutsch1•  Breitere1und1robustere1Syntax,1.efere1Seman.k:11

–  Differenzierung1von1Klassen1und1Individuen1–  Erkennung1seman.scher1Rollen1und1Rela.onen1

•  Bereitstellung1von1APIs1zum1Zugriff1auf1die1Wissensbasis1

•  Integra.on1von1Linked1Data1•  iPhoneE1und1AndroidEClients1•  twiGer1bot1(interak.ver1twiGerEDialogpartner)1

Page 21: Von PageRank zu FactRank: Sprach- und texttechnologische Verfahren für den Aufbau der Wissensbasis von eyePlorer.com

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 21/251

Gliederung1

•  Über1die1vionto1GmbH1

•  eyePlorer.com:1Überblick1und1Demo1

•  Sprachtechnologie:1Architektur1und1Ansätze1•  Konzep.den.fizierung1und1Kategorisierung:1Demo1

•  FactRank1und1andere1Herausforderungen1•  Zukün;ige1Entwicklungen1•  Zusammenfassung+und+Schlussfolgerungen+

Page 22: Von PageRank zu FactRank: Sprach- und texttechnologische Verfahren für den Aufbau der Wissensbasis von eyePlorer.com

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 22/251

Zusammenfassung1

•  eyePlorer.com1besitzt1ein1sehr1komplexes1Backend.1

•  Vollautoma.sch1aufgebaute1Wissensbasis1(seman.sches1Netz).1

–  Wikipedia1als1seman.scher1Backbone.1

–  Sta.s.sche1und1graphentheore.sche1Methoden.1

–  Computerlinguis.sche1Methoden.1

•  NLTPP:1UIMAEPipeline1mit1verschiedenen1Open1SourceE1sowie1

spezialisierten1Modulen1(z.B.1Features1für1FactRank).1

•  Hohe1Qualitätsansprüche1(Prägnanz1der1Fakten;1Kategorisierung).1•  Verschiedene1sehr1schwierige1tasks,1z.B.:1

–  Word1Sense1Disambigua.on.1

–  Kontextsensi.ve1Annota.on1relevanter1Konzepte.1

Page 23: Von PageRank zu FactRank: Sprach- und texttechnologische Verfahren für den Aufbau der Wissensbasis von eyePlorer.com

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 23/251

Schlussfolgerungen:1NLPESo;ware1

•  Frei1verfügbare1NLPEKomponenten1und1ERessourcen:1

–  Wenig1Komponenten1und1Ressourcen1für1das1Deutsche1verfügbar.1

–  Entry1barrier1ist1sehr1hoch;1kaum1ein1Modul1ist1direkt1einsetzbar.1

–  Schon1gar1nicht1in1industrieller1Umgebung1und1Infrastruktur1(z.B.1Hadoop).1

–  Bedarf1für1R&DE1und1Evaluierung1ist1prak.sch1immer1vorhanden.1

•  Entwicklung1eigener1Komponenten:1

–  R&DEAufwand1für1z.B.1einen1Parser1oder1ein1anno.ertes1Korpus1extrem1hoch.1

–  Zeitkon.ngent1und1Budget1für1R&D1allgemein1eher1knapp.1

–  Entwickler1bearbeiten1in1der1Regel1parallel1Industrieprojekte.1•  Kommerzielle1Werkzeuge:1

–  Üblicherweise1extrem1teuer,1daher1kaum1erschwinglich1für1KMU.1

Page 24: Von PageRank zu FactRank: Sprach- und texttechnologische Verfahren für den Aufbau der Wissensbasis von eyePlorer.com

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 24/251

Schlussfolgerungen:1Standards1

•  Standards1sind1schön1und1gut,1aber1...1–  Aufwand1für1z.B.1Integra.on1von1UIMA1in1Hadoop1ist1sehr1hoch.1

–  Tatsächlicher1Vorteil1von1UIMA1derzeit1noch1unklar.1

–  Seman.c1WebETechnologien1sind1sehr1komplex1(zu1komplex?).1

–  Seman.c1WebETechnologien1sind1sehr1teuer.1–  Von1Standards1werden1o;mals1nur15%1der1Funk.onalität1benö.gt.1

–  Anbieter1entsprechender1So;ware1verlangen1trotzdem1100%1des1Preises.1

•  Diskrepanz1zwischen1Forschung1(„Performanz1spielt1keine1Rolle.�)1und1Industrie1(real1.me1search,1high1performance1compu.ng).1

•  Unsere1Lösung1für1diese1Probleme:1Koopera.onen1aller1Art,1

insbesondere1geförderte1Koopera.onsE1und1Transferprojekte.1

Page 25: Von PageRank zu FactRank: Sprach- und texttechnologische Verfahren für den Aufbau der Wissensbasis von eyePlorer.com

Computerlinguis.sche1Anwendungen1und1deren1Potenzial1für1die1Wirtscha;1 25/251

Q/A1

Vielen1Dank1für1Ihre1Aufmerksamkeit!11

1

1

Fragen1oder1Interesse1an1Koopera.onen?1

[email protected]

03014020329E151