Identifikation der geographischen Lage von Zeitungsartikeln (GIR)

download Identifikation der geographischen Lage von Zeitungsartikeln (GIR)

of 23

  • date post

    14-Jan-2016
  • Category

    Documents

  • view

    26
  • download

    0

Embed Size (px)

description

Identifikation der geographischen Lage von Zeitungsartikeln (GIR). Masterarbeit von Tobias Brunner Betreuung: Dr. R. S. Purves. Motivation. Suchmaschinen können mit geographischen Anfragen oft wenig anfangen. Motivation. Zeitungsabschnitte Aufgrund von räumlichen Unterteilungen - PowerPoint PPT Presentation

Transcript of Identifikation der geographischen Lage von Zeitungsartikeln (GIR)

  • Identifikation der geographischen Lage von Zeitungsartikeln (GIR)Masterarbeit von Tobias BrunnerBetreuung: Dr. R. S. Purves

  • MotivationSuchmaschinen knnen mit geographischen Anfragen oft wenig anfangen...

  • MotivationZeitungsabschnitte Aufgrund von rumlichen Unterteilungen

    Scan von NZZ-Vorderseite

  • Forschungsstand und -kontextgeoCLEFGIR:Geographic information retrieval (GIR) is concerned with providing access to geo-referenced information sources (Larson 2000).Toponym DetectionToponym Resolution / DisambiguationIndexing

  • Toponym DetectionErkennung von OrtsnamenMethoden:Gazetteer LookupGETTY, Geonames, WorldGazetteer, GNIS, NIMA, Bevlkerungsstatistik.deNER-SystemsRegel-basiert, statistischZ.B. GATE

  • Toponym Resoultion / DisambiguationZuweisung von Footprint an ToponymProblem der Mehrdeutigkeit von Toponymen:Coocurrence (z.B. in Wikipedia)HierarchischMap-Distance

  • IndexingSpatial IndexTextual Index

  • Problemstellung und Zielsetzung(1) Statistische Auswertung der Gazetteers(2) Zuweisen von Footprint an Zeitungsartikel(3) Rumlicher Vergleich der Sdostschweizartikel mit den NZZ-Artikeln

  • 1. Statistische AuswertungMethodik:Statistische Methoden in Java programmierenDaten: Swissnames und GeonamesThese: Die rumliche Verteilung von mehrdeutigen Ortsnamen ist gleich wie die allgemeine Verteilung von Ortsnamen.

  • SwissNames (nur Schweiz):SwisstopoKommerziell155500 EintrgeHierarchische Angaben (Gemeinde, Kanton)TypinformationenKoordinatensystem: H1903Geonames (weltweit):Wiki-style User-EditingMehr als 8 Mio. EintrgeHierarchische Angaben: LandTypinformationenKoordinatensystem: WGS84

  • Erste Ergebnisse (1)

  • Erste Ergebnisse (2)

  • Mgliche Erklrung...

  • 2. Zuweisen von Footprint an ZeitungsartikelMethodik:Toponym Detection:Gazetteer Lookup (GATE, SwissNames, Geonames)Toponym Resolution / Disambiguation:Hierarchische BeziehungenMetonyme: Regeln

  • 3. Rumlicher Vergleich von Sdostschweiz- mit NZZ-ArtikelnThese: Artikel lokaler Zeitungen sind strker auf ihre Region fokussiert als diejenigen global erhltlicher ZeitungenAufbauend auf 2. Teil der ArbeitStatistischer Vergleich der Verteilung der Footprints

  • ProblempunkteSwissNames: mehrmalige punkteKombination SwissNames und GeonamesDeutsche Sprache:Gross-/KleinschreibungSatzstellungZeitungstexte politischer NaturMetonyme (z.B. Zug, Bern)Location?

  • Zeittafel/Meilensteine

    Sheet1

    KWFerienArbeitsphasenMilestones

    33/34LiteraturrechercheBeginn

    35Datensichtung/Suche

    36/37Statistische Datenauswertung

    38Ferien

    39FerienKonzeptabgabe

    40Statistische DatenauswertungKleines Kolloquium

    41GATE einlesen

    42Prozessierungslayout

    43-51Programmierung

    52Ferien

    1Ferien

    2ProgrammierungAbschluss Programmierung

    3Manuelle Ground-truth

    4-8Evaluation / Durchfhrung

    9-15Arbeit verfassen

    15Abgabe der Arbeit

    22Masterkollouium

    Sheet2

    Sheet3

  • ZusammenfassungGIRStatistische Auswertung von SwissNames und GeonamesZuweisen von Footprints an ZeitungsartikelVergleich von Sdostschweizartikeln und NZZ-ArtikelnIn Java programmiert

  • QuellenCunningham, Hamish et al. (2007): GATE - General Architecture for Text Engineering. http://www.gate.ac.uk, Zugriff: 16.09.2007.Geonames (2007): http://www.geonames.org, Zugriff 16.09.2007.Larson, Ray R. (2000): Geographic Information Retrieval and Spatial Browsing. https://sherlock.sims.berkeley.edu/geo_ir/PART1.html, Zugriff: 16.09.2007.SwissTopo (2006): SwissNames - Georeferenzierte Sammlung der Landeskartennamen. http://www.swisstopo.ch/de/products/digital/names/swissnames, Zugriff: 16.09.2007.

    Auf deutschAuch auf englischAltavista auf deutschYahoo, auf englischGEOCLEF: Meist in Englisch. Statistisch wurden die Gazetteers kaum ausgewertetGIR: - erklren was es ist (Definition)- Ein kommerzielles Ziel ist natrlich die Platzierung von Werbung auf WebsitesGazetteer lookup: gilt als mindestens so gut wie NER. DEUTSCHE SPRACHE!!!GATE erklren

    Hierarchisch, da Swissnames hierarchische Informationen beinhltMetonyme: Erklren