Bessere Suchergebnisse durch Named Entity Recognition

download Bessere Suchergebnisse durch Named Entity Recognition

of 15

  • date post

    25-Jun-2015
  • Category

    Technology

  • view

    72
  • download

    1

Embed Size (px)

Transcript of Bessere Suchergebnisse durch Named Entity Recognition

  • 1. Bessere Suchergebnisse durchNamed Entity RecognitionHistorische Zeitungen im digitalen Zeitalter /I giornali storici nellera digitale27.10.2014EURAC Bozen / BolzanoClemens Neudecker, State Library Berlin@cneudecker

2. Was ist eigentlich Named Entity Recognition? Named Entity Recognition (NER) ist ein Untergebiet derInformationsextraktion (Information Extraction) und wirdallgemein als Aufgabe der Computerlinguistik verstanden. Es geht dabei um die automatische Extraktion vonWissen bzw. die Klassifikation von Information aussemantisch unstrukturierten Inhalten. Bei der NER handelt es sich durchaus noch um einakademisches Forschungsfeld (vgl. Google/MSRCompetition) praktische Anwendungsbeispiele ausdem Kultur- sowie Digitalisierungsumfeld sind bishernoch die Ausnahme.This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of theCompetitiveness and Innovation Framework Programme by the European Communityhttp://ec.europa.eu/ict_psp 2 3. Oder: Was ist eigentlich ein Named Entity? PERSON: Personennamen, Familiennamen, aber auch Namen von fiktivenPersonen (Albert Einstein, Prsident der USA, Micky Maus) ORGANISATION: Bezeichnungen von Firmen, Regierungs- oder Nicht-Regierungsorganisationen (IBM, The Beatles, Labour Party)This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of theCompetitiveness and Innovation Framework Programme by the European Communityhttp://ec.europa.eu/ict_psp ORT: Stdte, Provinzen, Lnder, Gebiete, usw.(Paris, Sdtirol, Alpen)3 4. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of theCompetitiveness and Innovation Framework Programme by the European Communityhttp://ec.europa.eu/ict_pspNER (I)41. Erkennen von Personennamen, Ortsbezeichnungen,Organisationen im Volltext 5. NER (II)This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of theCompetitiveness and Innovation Framework Programme by the European Communityhttp://ec.europa.eu/ict_psp52. Disambiguieren von Begriffen (Beispiel Jordan)durch Kontextinformationen 6. NER (III)This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of theCompetitiveness and Innovation Framework Programme by the European Communityhttp://ec.europa.eu/ict_psp63. Verlinkung mit Normdaten und Online Datenquellen(Linked Data) 7. Sprachuntersttzung3 Sprachen: Deutsch Niederlndisch FranzsischThis project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of theCompetitiveness and Innovation Framework Programme by the European Communityhttp://ec.europa.eu/ict_psp7 8. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of theCompetitiveness and Innovation Framework Programme by the European Communityhttp://ec.europa.eu/ict_pspAnsatz Machine learning vs. Regelbasierter (rule-based) Ansatz Vorteile Machine-learning: Keine (quasi) linguistische Expertise notwendig Verarbeitung von groen Mengen mglich Vorteile Regelbasiert: Sehr hohe Genauigkeiten mglich Bercksichtigung spezieller Grammatiken8 9. Software Open Source ML Software entwickelt durch die StanfordUniversitt, fr das Europeana Newspapers Projekterweitert durch die KBNL Software steht auf Github zum Herunterladen undAusprobieren bereit:https://github.com/KBNLresearch/europeananp-nerThis project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of theCompetitiveness and Innovation Framework Programme by the European Communityhttp://ec.europa.eu/ict_psp9 10. Training Trainieren des NER Systems mit Hilfe von manuellannotierten Korpora Verffentlichung des annotierten Korpus als Open DataThis project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of theCompetitiveness and Innovation Framework Programme by the European Communityhttp://ec.europa.eu/ict_psp10 11. Probleme und Herausforderungen OCR Fehler reduzieren die Genauigkeit der Erkennungund verlangsamen die Verarbeitung Historische Schreibvarianten fr Orts- und Personennamen In vielen Fllen sind die historischen Bezeichnungen oderSchreibvarianten nicht in entsprechenden Normdatenbankennachgewiesen Anpassungen der Software fr OCR ProblematikThis project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of theCompetitiveness and Innovation Framework Programme by the European Communityhttp://ec.europa.eu/ict_psp11 12. Erste Resultate: NiederlndischPersonen Orte OrganisationenThis project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of theCompetitiveness and Innovation Framework Programme by the European Communityhttp://ec.europa.eu/ict_psp12Precision 0.940 0.950 0.942Recall 0.588 0.760 0.559F-measure 0.689 0.838 0.671 13. Warum berhaupt Named Entity Recognition? Beispiel Analyse von Logfiles der National Library of Wales:9 von 10 Suchanfragen entfallen auf Personen oder Orte(Quelle: Paul Gooding, Exploring Usage of Digital Newspaper Archives through Web LogAnalysis: A Case Study of Welsh Newspapers Online, presented at DH2014, Lausanne)This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of theCompetitiveness and Innovation Framework Programme by the European Communityhttp://ec.europa.eu/ict_psp13 14. Beispiel fr die Prsentation aus Nutzersicht: Digi20 Digi20 Projekt der BSBThis project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of theCompetitiveness and Innovation Framework Programme by the European Communityhttp://ec.europa.eu/ict_psp14http://digi20.digitale-sammlungen.de/ 15. Danke fr Ihre Aufmerksamkeit!Grazie per la vostra attenzione!@eurnewshttp://www.europeana-newspapers.euhttp://www.theeuropeanlibrary.org/tel4/newspapershttp://www.europeana.eu/